














关于 封面 


本 书 封面 插画 的 标题 为 “ 伊 斯 特 里 亚 人 ”(“Man from lstria”， 伊 斯 特 里 亚 是 克罗地亚 面向 亚 
得 里 亚 海 的 一 个 很 大 半岛 )。 该 插画 来 自 克 罗 地 亚 斯 普 利 特 民族 博物 馆 2008 年 出 版 的 Balthasar 
Hacquet 的 《图 说 西南 及 东 汪 达尔 人 、 伊 利 里 亚 人 和 斯 拉夫 人 》( Jmages anqd Descriptions of South- 
western and Eastern Wenda, lllyrians, and Slavs ) 的 最 新 重印 版 本 。Hacquet ( 1739 一 1815 ) 是 一 名 
奥地利 内 科 医 生 及 科学 家 ,他 花费 数 年 时 间 去 研究 各 地 的 植物 、 地 质 和 人 种 ,这 些 地 方 包括 奥 匈 
帝国 的 多 个 地 区 ， 以 及 伊利 里 亚 部 落 过 去 居住 的 (罗马 帝国 的 ) 威 尼 托 地 区 、 尤 里 安 阿尔 卑 斯 山 
脉 及 西 巴尔 干 等 地 区 。Hacquet 发 表 的 很 多 论文 和 书籍 中 都 有 手绘 插图 。 

Hacquet 出 版 物 中 丰富 多 样 的 插图 生动 地 描绘 了 200 年 前 西 阿 尔 插 斯 和 巴尔 干 西北 地 区 的 独 
特性 和 个 体 性 。 那 时 候 相距 几 英 里 的 两 个 村 庄村 民 的 衣着 都 杀 然 不 同 ， 当 有 社交 活动 或 交易 时 ， 
不 同 地 区 的 人 们 很 容易 通过 着 装 来 辨别 。 从 那 之 后 着 装 的 要 求 发 生 了 改变 , 不 同 地 区 的 多 样 性 也 
逐渐 消亡 。 现 在 很 难说 出 不 同 大 陆 的 居民 有 多 大 区 别 ， 比 如 ,现在 很 难 区 分 斯 治文 尼 亚 的 阿尔 插 
斯 山地 区 或 巴尔 干 沿海 那些 美丽 小 镇 或 村 庄 里 的 居民 和 欧洲 其 他 地 区 或 美国 的 居民 。 | 

Manning 出 版 社 利用 两 个 世纪 之 前 的 服装 来 设计 书籍 封面 ， 以 此 来 赞颂 计算 机 产业 所 具有 的 
创造 性 、 主 动 性 和 趣味 性 。 正如 本 书 封面 的 图 片 一 样 , 这 些 图 片 也 把 我 们 带 回 到 过 去 的 生活 中 去 。 
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本 书 前 两 部 分 主要 探讨 监督 学 习 (supervised learning)。 在 监督 学 习 的 过 程 中 ， 我 们 只 需 
要 给 定 输入 样本 集 , 机 器 就 可 以 从 中 推演 出 指定 目标 变量 的 可 能 结果 。 监 督学 习 相对 比较 简单 ， 
机 器 只 需 从 输入 数据 中 预测 合适 的 模型 ， 并 从 中 计算 出 目标 变量 的 结果 。 

监督 学 习 一 般 使 用 两 种 类 型 的 目标 变量 : 标 称 型 和 数值 型 。 标 称 型 目标 变量 的 结果 只 在 有 
限 目标 集中 取 值 ， 如 真 与 假 、 动 物 分 类 集合 { 卜 行 类 、 鱼 类 、 哺 乳 类 、 两 栖 类 、 植 物 、 真 菌 } 
数值 型 目标 变量 则 可 以 从 无 限 的 数值 集合 中 取 值 ， 如 0.100、42.001、1000.743 等 。 数 值 型 月 
标 变量 主要 用 于 回归 分 析 ， 将 在 本 书 的 第 二 部 分 研究 ， 第 一 部 分 主要 介绍 分 类 。 

本 书 的 前 七 章 主要 研究 分 类 算法 ， 第 2 章 讲述 最 简单 的 分 类 算法 ; -近邻 算法 ， 它 使 用 中 
离 矩 阵 进行 分 类 ; 第 3 章 引 入 了 决策 树 ， 它 比较 直观 ， 容 易 理 解 ， 但 是 相对 难于 实现 ; 第 4 章 
将 讨论 如 何 使 用 概率 论 建 立 分 类 器 ; 第 5 章 将 讨论 Logistic 回归 ， 如 何 使 用 最 优 参数 正确 地 分 
类 原始 数据 ， 在 搜索 最 优 参数 的 过 程 中 ， 将 使 用 几 个 经 常用 到 的 优化 算法 ; 第 6 章 介 绍 了 非常 
流行 的 支持 向 量 机 ; 第 一 部 分 最 后 的 第 7 章 将 介绍 元 算法 一 一 AdaBoost， 它 由 若干 个 分 类 器 构 
成 ， 此 外 还 总 结 了 第 一 部 分 探讨 的 分 类 算法 在 实际 使 用 中 可 能 面 对 的 非 均衡 分 类 问题 ， 一 旦 训 
练 样本 某 个 分 类 的 数据 多 于 其 他 分 类 的 数据 ， 就 会 产生 非 均 衡 分 类 问题 。 
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本 章 内 容 

口 机 器 学 习 的 简单 概述 
口 机 器 学 习 的 主要 任务 
口 学 习 机 器 学 习 的 原因 
口 Python 语言 的 优势 


最 近 我 和 一 对 夫妇 共 进 晚餐 ， 他 们 问 我 从 事 什 么 职业 ,我 回应 道 :“ 机 器 学 习 。” 妻子 回头 问 
丈夫 :“ 亲 爱 的 ， 什 么 是 机 器 学 习 ? ”她 的 丈夫 答 道 :“T-800 型 终结 者 。” 在 《终结 者 》 系 列 电影 
中 , 工 800 是 人 工 智能 技术 的 反面 样板 工程 。 不 过 ， 这 位 朋友 对 机 器 学 习 的 理解 还 是 有 所 偏差 的 。 
本 书 既 不 会 探讨 和 计算 机 程序 有 关 的 话题 , 也 不 会 与 计算 机 探讨 人 生 的 意义 。 机 器 学 习 能 让 我 们 
自 数据 集中 受到 启发 ， 换 句 话说 , 我们 会 利用 计算 机 来 彰显 数据 背后 的 真实 含义 ， 这 才 是 机 器 学 
习 的 真实 含义 。 它 既 不 是 只 会 徒然 模仿 的 机 器 人 ， 也 不 是 具有 人 类 感情 的 仿生 人 。 

现今 , 机 器 学 习 已 应 用 于 多 个 领域 ， 远 超出 大 多 数 人 的 想象 ， 下 面 就 是 假想 的 一 日 ， 其 中 很 
多 场景 都 会 磁 到 机 器 学 习 : 假设 你 想起 今天 是 某 位 朋友 的 生日 ,打算 通过 邮局 给 她 邮寄 一 张 生日 
贺卡 。 你 打开 浏览 器 搜索 趣味 卡片 ,搜索 引擎 显示 了 10 个 最 相关 的 链接 。 你 认为 第 二 个 链接 最 符 
合 你 的 要 求 ， 点 击 了 这 个 链接 ,搜索 引擎 将 记录 这 次 点 击 ， 并 从 中 学 习 以 优化 下 次 搜索 结果 。 然 
后 , 你 检查 电子 邮件 系统 ， 此 时 垃圾 邮件 过 滤器 已 经 在 后 合 自动 过 滤 垃 圾 广告 邮件 , 并 将 其 放 在 
垃圾 箱 内 。 接 着 你 去 商店 购买 这 张 生日 卡片 ， 并 给 你 朋友 的 孩子 挑选 了 一 些 尿布 。 结 账 时 ， 收 银 
员 给 了 你 一 张 1 美元 的 优惠 券 , 可 以 用 于 购买 6 钢 装 的 啤酒 。 之 所 以 你 会 得 到 这 张 优惠 券 , 是 因为 
款 台 收费 软件 基于 以 前 的 统计 知识 ,认为 买 尿布 的 人 往往 也 会 买 啤酒 。 然 后 你 去 邮局 邮寄 这 张 贺 
卡 ， 手 写 识 别 软件 识别 出 邮寄 地 址 ， 并 将 贺卡 发 送 给 正确 的 邮 车 。 当 天 你 还 去 了 贷款 申请 机 构 ， 
查看 自己 是 否 能 够 申请 贷款 , 办 事 员 并 不 是 直接 给 出 结果 , 而 是 将 你 最 近 的 金融 活动 信息 输入 计 
算 机 ， 由 软件 来 判定 你 是 否 合格 。 最 后 ,你 还 去 了 赌场 想 找 些 乐 子 ， 当 你 步 和 前 门 时 ， 尾随 你 进 
来 的 一 个 家 伙 被 突然 出 现 的 保安 给 拦 了 下 来 。“ 对 不 起 ， 索 普 先 生 ， 我 们 不 得 不 请 您 离开 赌场 。 
我 们 不 欢迎 老 千 。” 图 1-1 集 中 展示 了 使 用 到 的 机 器 学 习 应 用 。 

上 面 提 到 的 所 有 场景 , 都 有 机 器 学 习 软 件 的 存在 。 现 在 很 多 公司 使 用 机 器 学 习 软 件 改善 商业 
决策 、 提 高 生产 率 、 检 测 疾病 、 预 测 天 气 ， 等 等 。 随 着 技术 指数 级 增长 ， 我 们 不 仅 需 要 使 用 更 好 
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的 工具 解析 当前 的 数据 ， 而 且 还 要 为 将 来 可 能 产生 的 数据 做 好 充分 的 准备 。 
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图 1-1 机 器 学 习 在 日 常生 活 中 的 应 用 ， 从 左上 角 按 照 顺 时 针 方向 依次 使 用 到 的 机 器 学 习 技 
术 分 别 为 ， 人 脸 识别 、 手 写 数字 识别 、 垃 圾 邮件 过 滤 和 亚 马 撑 公司 的 产品 推荐 


现在 正式 进入 本 书 机 器 学 习 的 主题 。 本 章 我 们 将 首先 介绍 什么 是 机 器 学 习 ,， 日 常生 活 中 何 处 
将 用 到 机 器 学 习 ， 以 及 机 器 学 习 如 何 改 进 我 们 的 工作 和 生活 ; 然后 讨论 使 用 机 咒 学 习 解 决 问题 的 


一 般 办 法 ; 最 后 介绍 为 什么 本 书 使 用 Python 语言 来 处 理 机 器 学 习 问 题 。 我 们 将 通过 一 个 Python 模 


块 NumPy 来 简要 介绍 Python 在 抽象 和 处 理 矩 阵 运算 上 的 优势 。 


1.1 何谓 机 器 学 习 


除却 一 些 无 关 紧要 的 情况 ， 人 们 很 难 直接 从 原始 数据 本 身 获 得 所 需 信息 。 例 如 ， 对 于 垃圾 邮 
件 的 检测 ， 侦 测 一 个 单词 是 否 存在 并 没有 太 大 的 作用 ,然而 当 某 几 个 特定 单词 同时 出 现时 ， 再 辅 
以 考察 邮件 长 度 及 其 他 因素 ， 人 们 就 可 以 更 准确 地 判定 该 邮件 是 否 为 垃圾 邮件 。 简 单 地 说 ， 机 器 
学 习 就 是 把 无 序 的 数据 转换 成 有 用 的 信息 。 

机 器 学 习 横 跨 计 算 机 科学 、 工 程 技术 和 统计 学 等 多 个 学 科 ， 需 要 多 学 科 的 专业 知识 。 稍 后 你 
就 能 了 解 到 ， 它 也 可 以 作为 实际 工具 应 用 于 从 政治 到 地 质 学 的 多 个 领域 ， 解 决 其 中 的 很 多 问题 。 
甚至 可 以 这 人 么 说 ， 机 器 学 习 对 于 任何 需要 解释 并 操作 数据 的 领域 都 有 所 神 益 。 
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开发 出 能 够 识别 鸟 类 的 计算 机 软件 ， 鸟 类 学 者 就 可 以 退休 了 。 因 为 鸟 类 学 者 是 研究 鸟 类 的 专家 ， 
因此 我 们 说 创建 的 是 一 个 专家 系统 。 

表 1-1 是 我 们 用 于 区 分 不 同 鸟 类 需要 使 用 的 四 个 不 同 的 属性 值 ， 我 们 选用 体重 、 翼 展 、 有 无 
脚 忠 以 及 后 背 颜色 作为 评测 基准 。 现 实 中 ,你 可 能 会 想 测量 更 多 的 值 。 通 常 的 做 法 是 测量 所 有 可 
测 属 性 ， 而 后 再 挑选 出 重要 部 分 。 下 面 测量 的 这 四 种 值 称 之 为 特征 ， 也 可 以 称 作 属性 ,但 本 书 一 
律 将 其 称 为 特征 。 表 1-1 中 的 每 一 行 都 是 一 个 具有 相关 特征 的 实例 。 


表 1-1 基于 四 种 特征 的 岛 物种 分 类 表 








体重 ( 克 ) 翼 展 〈 厘 米 ) 脚 ”中 后 背 颜 色 种 属 
1 1000.1 125.0 无 棕色 红 尾 到 
3 3000.7 200.0 无 灰色 监 诠 
3 3300.0 220.3 无 灰色 时 应 
4 4100.0 136.0 有 黑色 普通 潜 鸟 
5 3.0 11.0 无 绿色 瑰丽 蜂鸟 
6 570.0 75.0 无 黑色 象牙 喉 吸 木 鸟 





表 1-1 的 前 两 种 特征 是 数值 型 ， 可 以 使 用 十 进 制 数字 ， 第 三 种 特征 ( 是否 有 脚 号 ) 是 二 值 型 ， 
只 可 以 取 0 或 1; 第 四 种 特征 ( 后 背 颜 色 ) 是 基于 自 定义 调 色 板 的 枚 举 类 型 ， 这 里 仅 选择 一 些 常用 
色彩 。 如 果 仅 仅 利用 常见 的 七 色 作 为 评测 特征 , 后 背 颜色 也 可 以 是 一 个 整数 。 当 然 在 七 色 之 中 选 
择 一 个 作为 后 背 颜 色 有 些 太 简单 了 ， 但 作为 专家 系统 的 演示 用 例 ， 这 已 经 足够 了 。 

如 果 你 看 到 了 一 只 象牙 只 吸 木 鸟 ， 请 马上 通知 我 ! 而 且 千 万 不 要 告诉 任何 人 。 在 我 到 达 之 前 ， 
一 定 要 看 住 它 ， 别 让 它 飞 跑 了 。( 任何 发 现 活 的 象牙 只 嚼 木 鸟 的 人 都 可 以 得 到 5 万 美元 的 奖励 。) 

机 器 学 习 的 主要 任务 就 是 分 类 。 本 节 我 们 讲述 如 何 使 用 表 1-1 进 行 分 类 ， 标 识 出 象牙 史 吸 森 
鸟 从 而 获取 5 万 美元 的 奖励 。 大 家 都 想 从 众多 其 他 鸟 类 中 分 辨 出 象牙 陈 嚼 本 岛 ， 并 从 中 获 利 。 最 
简单 的 做 法 是 安装 一 个 喂食 器 ， 然 后 雇用 一 位 鸟 类 学 者 ， 观 察 在 附近 进食 的 鸟 类 。 如 果 发 现象 牙 
史 吸 木 岛 ， 则 通知 我 们 。 这 种 方法 太 昂贵 了 ,而 且 专 家 在 同一 时 间 只 能 出 现在 一 个 地 方 。 我 们 可 
以 自动 化 处 理 上 述 过 程 , 安装 多 个 带 有 有 照相 机 的 喂食 器 , 同时 接 入 计算 机 用 于 标识 前 来 进食 的 岛 。 
同样 我 们 可 以 在 喂食 器 中 放置 称 重 仪器 以 获取 鸟 的 体重 ， 利 用 计算 机 视觉 技术 来 提取 鸟 的 翅 长 、 
脚 的 类 型 和 后 背 色彩 。 假 定 我 们 可 以 得 到 所 需 的 全 部 特征 信息 , 那 该 如 何 判断 飞人 进食 器 的 岛 是 
不 是 象牙 只 吸 木 岛 呢 ? 这 个 任务 就 是 分 类 ， 有 很 多 机 器 学 习 算法 非常 善于 分 类 。 本 例 中 的 类 别 就 
是 鸟 的 物种 ， 更 具体 地 说 ， 就 是 区 分 是 否 为 象牙 史 吸 木 乌 。 

最 终 我 们 决定 使 用 某 个 机 器 学 习 算法 进行 分 类 , 首先 需要 做 的 是 算法 训练 , 即 学 习 如 何 分 类 。 
通常 我 们 为 算法 输入 大 量 已 分 类 数据 作为 算法 的 训练 集 。 训练 集 是 用 于 训练 机 器 学 习 算 法 的 数据 
样本 集合 ， 表 1-1 是 包含 六 个 训练 样本 的 训练 集 ， 每 个 训练 样本 有 4 种 特征 、 一 个 目标 变量 ， 如 图 
1-2 所 示 。 目 标 变量 是 机 器 学 习 算法 的 预测 结果 ， 在 分 类 算法 中 目标 变量 的 类 型 通常 是 标 称 型 的 ， 
而 在 回归 算法 中 通常 是 连续 型 的 。 训 练 样本 集 必须 确定 知道 目标 变量 的 值 ， 以 便 机 器 学 习 算法 可 
以 发 现 特征 和 目标 变量 之 间 的 关系 。 正 如 前 文 所 述 ， 这 里 的 目标 变量 是 物种 ， 也 可 以 简化 为 标 
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称 型 的 数值 。 我 们 通常 将 分 类 问题 中 的 目标 变量 称 为 类 别 ， 并 假定 分 类 问题 只 存在 有 限 个 数 的 | | 
类 别 。 ! 





Weight Wingspan Webbed feet? Back soler Species | 
1000.,1 125.,0 No Brown Buteo jamaicensis 
3000.7 200,0 No Gray Sagittarius serpentarlus 

特征 目标 变量 


图 1-2 特征 和 标识 的 目标 变量 


注意 ”特征 或 者 属性 通常 是 训练 样本 集 的 列 ， 它 们 是 独立 测量 得 到 的 结果 ， 多 个 特征 联系 在 一 
起 共同 组 成 一 个 训练 样本 。 


为 了 测试 机 器 学 习 算 法 的 效果 ,通常 使 用 两 套 独立 的 样本 集 : 训练 数据 和 测试 数据 。 当 机 央 
学 习 程序 开始 运行 时 ,使 用 训练 样本 集 作 为 算法 的 输入 ,训练 完成 之 后 输入 测试 样本 。 输 入 测试 
样本 时 并 不 提供 测试 样本 的 目标 变量 , 由 程序 决定 样本 属于 哪个 类 别 。 比 较 测 试 样本 预测 的 目标 
变量 值 与 实际 样本 类 别 之 间 的 差别 ,就 可 以 得 出 算法 的 实际 精确 度 。 本 书 的 后 续 章 节 将 会 引信 更 
好 地 使 用 测试 样本 和 训练 样本 信息 的 方法 ， 这 里 就 不 再 详 述 。 

假定 这 个 鸟 类 分 类 程序 , 经 过 测试 满足 精确 度 要 求 , 是 否 我 们 就 可 以 看 到 机 器 已 经 学 会 了 如 
何 区 分 不 同 的 鸟 类 了 呢 ? 这 部 分 工作 称 之 为 知识 表示 ， 某 些 算 法 可 以 产生 很 容易 理解 的 知识 表 
示 , 而 某 些 算法 的 知识 表示 也 许 只 能 为 计算 机 所 理解 。 知 识 表示 可 以 采用 规则 集 的 形式 ,也 可 以 
采用 概率 分 布 的 形式 , 设置 可 以 是 训练 样本 集中 的 一 个 实例 。 在 某 些 场合 中 ， 人 们 可 能 并 不 想 建 
立 一 个 专家 系统 ,而 仅仅 对 机 器 学 习 算法 获取 的 信息 感 兴趣 。 此 时 , 采用 何 种 方式 表示 知识 就 显 
得 非常 重要 了 。 

本 节 介 绍 了 机 器 学 习 领 域 涉及 的 关键 术语 , 后 续 章 节 将 会 在 必要 时 引入 其 他 的 术语 , 这 里 就 
不 再 进一步 说 明 。 下 一 节 将 会 介绍 机 器 学 习 算 法 的 主要 任务 。 


1.3 ”机 器 学 习 的 主要 任务 


本 节 主 要 介绍 机 器 学 习 的 主要 任务 , 并 给 出 一 个 表格 , 帮助 读者 将 机 器 学 习 算 法 转化 为 可 实 
际 运作 的 应 用 程序 。 

上 节 的 例子 介绍 了 机 器 学 习 如 何 解决 分 类 问题 , 它 的 主要 任务 是 将 实例 数据 划分 到 合适 的 分 
类 中 。 机 器 学 习 的 另 一 项 任务 是 回归 ， 它 主要 用 于 预测 数值 型 数据 。 大 多 数 人 可 能 都 见 过 回归 的 
例子 一 -数据 拟 合 曲线 : 通过 给 定数 据点 的 最 优 拟 合 曲线 。 分 类 和 回归 属于 监督 学 习 ， 之 所 以 称 
之 为 监督 学 习 ， 是 因为 这 类 算法 必须 知道 预测 什么 ， 即 目标 变量 的 分 类 信息 。 
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与 监督 学 习 相对 应 的 是 无 监督 学 习 ， 此 时 数据 没有 类 别 信息 ,也 不 会 给 定 目标 值 。 在 无 监督 
学 习 中 , 将 数据 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 被 称 为 聚 类 ; 将 寻找 描述 数据 统计 值 
的 过 程 称 之 为 密度 估计 。 此 外 , 无 监督 学 习 还 可 以 减少 数据 特征 的 维度 ， 以 便 我 们 可 以 使 用 二 维 
或 三 维 图 形 更 加 直观 地 展示 数据 信息 。 表 1-2 列 出 了 机 器 学 习 的 主要 任务 ， 以 及 解决 相应 问题 的 
算法 。 

表 1-2 用 于 执行 分 类 、 回 归 、 聚 类 和 密度 估计 的 机 器 学 习 算法 











监督 学 习 的 用 途 
大 近邻 算法 线性 回归 
朴素 贝 叶 斯 算法 局 部 加 权 线 性 回归 
支持 向 量 机 Ridge 回归 
决策 树 Lasso 最 小 回归 系数 估计 
无 监督 学 习 的 用 途 
K- 均 值 最 大 期 望 算法 
DBSCAN Parzen 窗 设计 


你 可 能 已 经 注意 到 表 1-2 中 的 很 多 算法 都 可 以 用 于 解决 同样 的 问题 ， 有 心 人 肯定 会 问 :“ 为 什 
么 解决 同一 个 问题 存在 四 种 方法 ? 精通 其 中 一 种 算法 , 是 否 可 以 处 理 所 有 的 类 似 问 题 ? ”本 书 的 
下 一 节 将 回答 这 些 疑 问 。 


1.4 ”如何 选择 合适 的 算法 


从 表 1-2 中 所 列 的 算法 中 选择 实际 可 用 的 算法 ， 必 须 考 虑 下 面 两 个 问题 : 一 、 使 用 机 器 学 习 
算法 的 目的 ， 想 要 算法 完成 何 种 任务 ， 比 如 是 预测 明天 下 十 的 概率 还 是 对 投票 者 按照 兴趣 分 组 ; 
二 、 需 要 分 析 或 收集 的 数据 是 什么 。 

首先 考虑 使 用 机 器 学 习 算 法 的 目的 。 如 果 想 要 预测 目标 变量 的 值 , 则 可 以 选择 监督 学 习 算法 ， 
否则 可 以 选择 无 监督 学 习 算法 。 确 定 选择 监督 学 习 算 法 之 后 ， 需 要 进一步 确定 目标 变量 类 型 ， 如 
果 目 标 变 量 是 离散 型 ， 如 是 / 否 、1/2/3、A/B/C 或 者 红 / 黄 / 黑 等 ， 则 可 以 选择 分 类 器 算法 ， 如 果 目 
标 变 量 是 连续 型 的 数值 ， 如 0.0 ~ 100.00、-999 ~ 999 或 者 too ~ -oo 等 ， 则 需要 选择 回归 算法 。 

如 果 不 想 预 测 目标 变量 的 值 , 则 可 以 选择 无 监督 学 习 算法 。 进一步 分 析 是 否 需 要 将 数据 划分 
为 离散 的 组 。 如 果 这 是 唯一 的 需求 ， 则 使 用 聚 类 算法 ; 如 果 还 需要 估计 数据 与 每 个 分 组 的 相似 程 
度 ， 则 需要 使 用 密度 估计 算法 。 

在 大 多 数 情 况 下 ， 上 面 给 出 的 选择 方法 都 能 帮助 读者 选择 恰当 的 机 器 学 习 算 法 , 但 这 也 并 非 
一 成 不 变 。 第 9 章 我 们 就 会 使 用 分 类 算法 来 处 理 回 归 问 题 ， 显 然 这 将 与 上 面 监督 学 习 中 处 理 回归 


-问题 的 原则 不 同 。 


其 次 需要 考虑 的 是 数据 问题 。 我 们 应 该 充分 了 解数 据 ， 对 实际 数据 了 解 得 越 充分 , 越 容易 创 


建 符合 实际 需求 的 应 用 程序 。 主 要 应 该 了 解数 据 的 以 下 特性 ; 特征 值 是 离散 型 变量 还 是 连续 型 变 
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量 ， 特 征 值 中 是 否 存 在 缺失 的 值 ， 何 种 原因 造成 缺失 值 ， 数据 中 是 否 存在 异常 值 ， 某 个 特征 发 生 
的 频率 如 何 ( 是 否 罕见 得 如 同 海底 捞 针 )， 等 等 。 充 分 了 解 上 面 提 到 的 这 些 数据 特性 可 以 缩短 选 
择机 器 学 习 算 法 的 时 间 。 

我 们 只 能 在 一 定 程 度 上 缩小 算法 的 选择 范围 , 一 般 并 不 存在 最 好 的 算法 或 者 可 以 给 出 最 好 结 
果 的 算法 ， 同 时 还 要 尝试 不 同 算法 的 执行 效果 。 对 于 所 选 的 每 种 算法 ， 都 可 以 使 用 其 他 的 机 器 学 
习 技术 来 改进 其 性 能 。 在 处 理 输入 数据 之 后 ,两 个 算法 的 相对 性 能 也 可 能 会 发 生变 化 。 后 续 章节 


”我 们 将 进一步 讨论 此 类 问题 ， 一 般 说 来 发 现 最 好 算法 的 关键 环节 是 反复 试 错 的 迭代 过 程 。 


机 器 学 习 算法 虽然 各 不 相同 , 但 是 使 用 算法 创建 应 用 程序 的 步骤 却 基本 类 侯 , 下 一 节 将 介绍 
如 何 使 用 机 器 学 习 算法 的 通用 步骤 。 


1.5 开发 机 器 学 习 应 用 程序 的 步骤 


本 书 学 习 和 使 用 机 器 学 习 算法 开发 应 用 程序 ， 通 常 遵 循 以 下 的 步 又 。 

(1) 收集 数据 。 我 们 可 以 使 用 很 多 方法 收集 样本 数据 ， 如 ; 制作 网 络 疏 虫 从 网 站 上 抽取 数据 、 
从 RSS 反 馈 或 者 API 中 得 到 信息 、 设 备 发 送 过 来 的 实测 数据 ( 风速 、 血 糖 等 )。 提 取 数 据 的 方法 非 
常 多 ， 为 了 节省 时 间 与 精力 ， 可 以 使 用 公开 可 用 的 数据 源 。 

(2) 准备 输入 数据 。 得 到 数据 之 后 , 还 必须 确保 数据 格式 符合 要 求 ， 本 书 采用 的 格式 是 Python 
语言 的 List。 使 用 这 种 标准 数据 格式 可 以 融合 算法 和 数据 源 ， 方 便 匹 配 操作 。 本 书 使 用 Python 语 
言 构造 算法 应 用 ， 不 熟悉 的 读者 可 以 学 习 附录 A。 

此 外 还 需要 为 机 器 学 习 算法 准备 特定 的 数据 格式 ， 如 某 些 算法 要 求 特 征 值 使 用 特定 的 格式 ， 
一 些 算法 要 求 目标 变量 和 特征 值 是 字符 串 类 型 ， 而 另 一 些 算法 则 可 能 要 求 是 整数 类 型 。 后 续 章 节 
我 们 还 要 讨论 这 个 问题 ， 但 是 与 收集 数据 的 格式 相 比 ， 处 理 特殊 算法 要 求 的 格式 相对 简单 得 多 。 

(3) 分 析 输入 数据 。 此 步骤 主要 是 人 工分 析 以 前 得 到 的 数据 。 为 了 确保 前 两 步 有 效 ， 最 简单 
的 方法 是 用 文本 编辑 器 打开 数据 文件 ,查看 得 到 的 数据 是 否 为 空 值 。 此 外 , 还 可 以 进一步 浏览 数 
据 , 分 析 是 否 可 以 识别 出 模式 ; 数据 中 是 否 存在 明显 的 异常 值 ， 如 某 些 数据 点 与 数据 集中 的 其 他 
值 存在 明显 的 差异 。 通 过 一 维 、 二 维 或 三 维 图 形 展示 数据 也 是 不 错 的 方法 ， 然 而 大 多 数 时 候 我 们 
得 到 数据 的 特征 值 都 不 会 低 于 三 个 ,无 法 一 次 图 形 化 展示 所 有 特征 。 本 书 的 后 续 章 节 将 会 介绍 提 
炼 数 据 的 方法 ， 使 得 多 维 数据 可 以 压缩 到 二 维 或 三 维 ， 方 便 我 们 图 形 化 展示 数据 。 

这 一 步 的 主要 作用 是 确保 数据 集中 没有 垃圾 数据 。 如 果 是 在 产品 化 系统 中 使 用 机 器 学 习 算 法 
并 且 算 法 可 以 处 理 系统 产生 的 数据 格式 ， 或 者 我 们 信任 数据 来 源 ， 可 以 直接 跳 过 第 3 步 。 此 步 又 
需要 人 工 干 预 ， 如 果 在 自动 化 系统 中 还 需要 人 工 干 预 ， 显 然 就 降低 了 系统 的 价值 。 

(4) 训练 算法 。 机 器 学 习 算法 从 这 一 步 才 真正 开始 学 习 。 根 据 算 法 的 不 同 ， 第 4 步 和 第 5 步 是 
机 咒 学 习 算 法 的 核心 。 我 们 将 前 两 步 得 到 的 格式 化 数据 输入 到 算法 ,从 中 抽取 知识 或 信息 。 这 里 
得 到 的 知识 需要 存储 为 计算 机 可 以 处 理 的 格式 ， 方 便 后 续 步 又 使 用 。 

如 果 使 用 无 监督 学 习 算法 ,由 于 不 存在 目标 变量 值 ， 故而 也 不 需要 训练 算法 ， 所 有 与 算法 相 
关 的 内 容 都 集中 在 第 5 步 。 
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(5) 测试 算法 。 这 一 步 将 实际 使 用 第 4 步 机 器 学 习 得 到 的 知识 信息 。 为 了 评估 算法 ， 必 须 测试 算 
法 工作 的 效果 。 对 于 监督 学 习 , 必须 已 知 用 于 评估 算法 的 目标 变量 值 ; 对 于 无 监督 学 习 ,也 必须 用 
其 他 的 评测 手段 来 检验 算法 的 成 功率 。 无 论 哪 种 情形 ,如 果 不 满意 算法 的 输出 结果 , 则 可 以 回 到 第 
4 步 ， 改 正 并 加 以 测试 。 问 题 常 常会 跟 数据 的 收集 和 准备 有 关 ， 这 时 你 就 必须 跳 回 第 1 步 重 新 开始 。 

(6) 使 用 算法 。 将 机 器 学 习 算法 转换 为 应 用 程序 ， 执 行 实际 任务 ， 以 检验 上 述 步骤 是 否 可 以 
在 实际 环境 中 正常 工作 。 此 时 如 果 碰 到 新 的 数据 问题 ， 同 样 需要 重复 执行 上 述 的 步 又。 

下 节 我 们 将 讨论 实现 机 器 学 习 算 法 的 编程 语言 Python。 之 所 以 选择 Python， 是 因为 它 具 有 其 
他 编程 语言 不 具备 的 优势 , 如 易于 理解 、 丰 富 的 函数 库 ( 尤其 是 矩阵 操作 )、 活路 的 开发 者 社区 等 。 


1.6 “Python 语言 的 优势 


基于 以 下 三 个 原因 ,我们 选择 Python 作为 实现 机 器 学 习 算法 的 编程 语言 ; (1) Python 的 语法 清 
晰 ;(2) 易于 操作 纯 文本 文件 ; (3) 使 用 广泛 ， 存 在 大 量 的 开发 文档 。 


1.6.1 可 执行 伪 代 码 


Python 具有 清晰 的 语法 结构 ,大 家 也 把 它 称 作 可 执行 伪 代码 〈executable pseudo-code )。 默 认 
安装 的 Python 开发 环境 已 经 附带 了 很 多 高 级 数据 类 型 ， 如 列表 、 元 组 、 字 典 、 集合 、 队 列 等 , 无 
需 进一步 编程 就 可 以 使 用 这 些 数据 类 型 的 操作 。 使 用 这 些 数据 类 型 使 得 实现 抽象 的 数学 概念 非常 
简单 。 此 外 ， 读 者 还 可 以 使 用 自己 熟悉 的 编程 风格 ， 如 面向 对 象 编程 、 面 向 过 程 编程 、 或 者 函数 
式 编程 。 不 熟悉 Python 的 读者 可 以 参阅 附录 A， 该 附录 详细 介绍 了 Python 语言 、Python 使 用 的 数 
据 类 型 以 及 安装 指南 。 本 

Python 语言 处 理 和 操作 文本 文件 非常 简单 ， 非 常 易于 处 理 非 数值 型 数据 。Python 语 言 提供 了 
丰富 的 正则 表达 式 函数 以 及 很 多 访问 Web 页 面 的 函数 库 ， 使 得 从 HTML 中 提取 数据 变 得 非常 简单 
直观 。 


1.6.2 “Python 比较 流行 


Python 语言 使 用 广泛 ， 代 码 范例 也 很 多 ,便于 读者 快速 学 习 和 和 掌握。 此 外 ， 在 开发 实际 应 用 
程序 时 ， 也 可 以 利用 丰富 的 模块 库 缩 短 开发 周期 。- 

在 科学 和 金融 领域 ，Python 语 言 得 到 了 广泛 应 用 。SciPy 和 NumPy 等 许多 科学 函数 库 都 实现 
了 向 量 和 和 矩阵 操作 , 这 些 函 数 库 增加 了 代码 的 可 读 性 , 学 过 线性 代数 的 人 都 可 以 看 懂 代码 的 实际 
功能 。 另 外 ,科学 函数 库 SciPy 和 NumPy 使 用 底层 语言 ( C 和 Fortran ) 编写 ,提高 了 相关 应 用 程序 
的 计算 性 能 。 本 书 将 大 量 使 用 Python 的 NumPy。 

Python 的 科学 工具 可 以 与 绘图 工具 Matplotlib 协 同 工 作 。Matplotlib 可 以 绘制 2D、3D 图 形 ， 也 
可 以 处 理科 学 研究 中 经 常 使 用 到 的 图 形 ， 所 以 本 书 也 将 大 量 使 用 Matplotlib。 

Python 开发 环境 还 提供 了 交互 式 shell 环 境 ， 人 允许 用 户 开发 程序 时 查看 和 检测 程序 内 容 。 
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Python 开发 环境 将 来 还 会 集成 Pylab 模 块 ， 它 将 NumPy、SciPy 和 Matplotlib 合 并 为 一 个 开发 环 
境 。 在 本 书写 作 时 ，Pylab 还 没有 并 人 Python 环境 ， 但 是 不 远 的 将 来 我 们 肯定 可 以 在 Python 开发 环 
境 找到 它 。 


1.6.3 ”Python 语言 的 特色 


诸如 MATITLAB 和 Mathematica 等 高 级 程序 语言 也 允许 用 户 执行 矩阵 操作 ，MATLAB 甚 至 还 有 
许多 内 垦 的 特征 可 以 轻松 地 构造 机 器 学 习 应 用 , 而 且 MATLAB 的 运算 速度 也 很 快 。 然 而 MATLAB 
的 不 足 之 处 是 软件 费用 太 高 , 单个 软件 授权 就 要 花费 数 千 美元 。 虽 然 也 有 适合 MATLAB 的 第 三 方 
插件 ,但 是 没有 一 个 有 影响 力 的 大 型 开源 项 目 。 

Java 和 C 等 强 类 型 程序 设计 语言 也 有 矩阵 数学 库 ， 然 而 对 于 这 些 程序 设计 语言 来 说 ， 最 大 的 
问题 是 即使 完成 简单 的 操作 也 要 编写 大 量 的 代码 。 程 序 员 首 先 需要 定义 变量 的 类 型 ， 对 于 Java 来 
说 ， 每 次 封装 属性 时 还 需要 实现 getter 和 setter 方 法 。 另 外 还 要 记 着 实现 子 类 ， 即 使 并 不 想 使 用 子 
类 ,也 必须 实现 子 类 方法 。 为 了 完成 一 个 简单 的 工作 , 我 们 必须 花费 大 量 时 间 编 写 了 很 多 无 用 宛 
长 的 代码 。Python 语 言 则 与 Java 和 C 完 全 不 同 ， 它 清晰 简练 ， 而 且 易 于 理解 ， 即 使 不 是 编程 人 员 
也 能 够 理解 程序 的 含义 ， 而 Java 和 C 对 于 非 编程 人 员 则 像 天 书 一 样 难于 理解 。 


所 有 人 在 小 学 二 年 级 已 经 学 会 了 写作 ， 然 而 大 多 数 人 必须 从 事 其 他 更 重要 的 工作 。 
一 一 鲍 比 ， 秦 特 
也 许 某 一 天 ， 我 们 可 以 在 这 名 话 中 将 “写作 ”替代 为 “编写 代码 ”， 虽 然 有 些 人 对 于 编写 代 
码 很 感 兴趣 ， 但 是 对 于 大 多 数 人 来 说 ， 编 程 仅 是 完成 其 他 任务 的 工具 而 已 。Python 语 言 是 高 级 纺 
程 语言 ,我 们 可 以 花费 更 多 的 时 间 处 理 数据 的 内 在 含义 ， 而 无 须 花费 太 多 精力 解决 计算 机 如 何 得 
到 数据 结果 。Python 语 言 使 得 我 们 很 容易 表达 自己 的 目的 。 


1.6.4 Python 语言 的 缺点 


Python 语言 唯一 的 不 足 是 性 能 问题 。Python 程 序 运行 的 效率 不 如 Java 或 者 C 代 码 高 , 但 是 我 们 
可 以 使 用 Python 调用 C 编 译 的 代码 。 这 样 ， 我 们 就 可 以 同时 利用 C 和 Python 的 优点 ， 逐 步 地 开发 机 
器 学 习 应 用 程序 。 我 们 可 以 首先 使 用 Python 编写 实验 程序 ， 如 果 进 一 步 想 要 在 产品 中 实现 机 器 学 
习 , 转换 成 C 代 码 也 不 困难 。 如 果 程 序 是 按照 模块 化 原则 组 织 的 , 我 们 可 以 先 构造 可 运行 的 Python 
程序 , 然后 再 逐步 使 用 C 代 码 替 换 核心 代码 以 改进 程序 的 性 能 。C++r Boost 库 就 适合 完成 这 个 任务 ， 
其 他 类 似 于 Cython 和 PyPy 的 工具 也 可 以 编写 强 类 型 的 Python 代码 ， 改 进 一 般 Python 程序 的 性 能 。 

如 果 程 序 的 算法 或 者 思想 有 缺陷 , 则 无 论 程 序 的 性 能 如 何 ， 都 无 法 得 到 正确 的 结果 。 如 果 解 
决 问题 的 思想 存在 问题 , 那么 单纯 通过 提高 程序 的 运行 效率 , 扩展 用 户 规模 都 无 法 解决 这 个 核心 
问题 。 从 这 个 角度 来 看 ，Python 快 速 实现 系统 的 优势 就 更 加 明显 了 ， 我们 可 以 快速 地 检验 算法 或 


者 思想 是 否 正确 ， 如 果 需 要 ， 再 进一步 优化 代码 。 


本 节 大 致 介绍 了 本 书 选 择 Python 语言 实现 机 器 学 习 算 法 的 原因 ， 下 节 我 们 将 学 习 Python 语 言 
的 shell 开 发 环境 以 及 NumPy 函 数 库 o ; 
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器 学 习 算法 涉及 很 多 线性 代数 知识 ， 因 此 本 书 在 使 用 Python 语言 构造 机 器 学 习 应 用 时 ， 会 经 
常 使 用 NumPy 函 数 库 。 如 果 不 熟悉 线性 代数 也 不 用 着 急 ， 这 里 用 到 线性 代数 只 是 为 了 简化 不 同 的 数 
据点 上 执行 的 相同 数学 运算 。 将 数据 表示 为 矩阵 形式 ， 只 需要 执行 简单 的 矩阵 运算 而 不 需要 复杂 的 
循环 操作 。 在 你 使 用 本 书 开始 学 习 机 器 学 习 算法 之 前 ， 必 须 确保 可 以 正确 运行 Python 开发 环 境 ， 同 
时 正确 安装 了 NumPy 函 数 库 。NumPy 函 数 库 是 Python 开发 环境 的 一 个 独立 模块 ， 而 且 大 多 数 Python 
发 行 版 没有 默认 安装 NumPy 函 数 库 , 因此 在 安装 Python 之 后 必须 单独 安装 NumPy 函 数 库 。 在 Windows 
命令 行 提示 符 下 输入 c:\Python27\python.exe,， 在 Linux 或 者 Mac OS 的 终端 t+ 输入 python， 进入 
Python shell 开 发 环境 。 今 后 ， 一 旦 看 到 下 述 提示 符 就 意味 着 我 们 已 经 进入 Python shell 开 发 环境 : 


>>> 
在 Python shell 开 发 环境 中 输入 下 允 | 命令: 
>>> from numpy import * 


上 述 命令 将 NumPy 函 数 库 中 的 所 有 模块 引入 当前 的 命名 空间 。Mac OS 上 输出 结果 如 图 1-3 所 示 。 


[全 Terminal 一 . python 一 79x19 


[Last login: Hon Nov 22- 88: :35: 55 on ttys869 

| peter-harringtons-imqci~ pbharrin$ python 

Python 2.6.4 (r261:67515, Feb 41 2018, 80:51: 29) 

[GC¢C 4.2.1 (Apple Inc， build 5646)] on daryin 

Type "help", "copyright", "credits" or "license' for more information. 
| >3> from numpy import * 

PP 








| 图 








| 
L ee 


图 1 1-3 命令 行 启 动 Python 并 在 Python shell 开 发 环境 中 导入 模块 
然后 在 Python shell 开 发 环境 中 输入 下 述 命 令 : 


>>> random.rand (4,4) 





array ([[ 0.70328595, 0.40951383， 0.7475052 ， 0.07061094]， 
[ 0.9571294 ， 0.97588446, 0.2728084 ， 0.5257719 Jy 
[ 0.05431627, 0.01396732, 0.60304292， 0.19362288],，, 
{ 0.10648952, 0.27317698, 0.45582919, 0.04881605] ]) 


上 述 命令 构造 了 一 个 4x 4 的 随机 数组 , 因为 产生 的 是 随机 数组 , 不 同 计算 机 的 输出 结果 可 能 与 上 
ne 
NumPy 短 阵 与 数组 的 区 别 ， | 
el pA 村 处 硬 本 


列表 示 的 数字 元 素 。 虽然 它们 看 起 来 很 相似 , 但 是 在 这 两 个 数据 类 型 上 执行 相同 的 数学 运算 可 
能 得 到 不 同 的 结果 ， 其 中 NumPy 函 数 库 中 的 matrix 与 MATLAB 中 matrices 等 价 。 


| 


调用 mat () 函数 可 以 将 数组 转化 为 矩阵 ， 输 入 下 述 命令 : 
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>>> randMat = mat(random.rand(4,4)) 


由 于 使 用 随机 函数 产生 矩阵， 不 同 计算 机 上 输出 的 值 可 能 咯 有 不 同 : 


>>> randMat .I 


matrix([{ 0.24497106, 1.75854497, -1.77728665, -0.0834912 ]， 
[ 1.49792202, 2.12925479, 1.32132491, -9.75890849]， 
[ 2.76042144, 1.67271779, -0.29226613, -8.45413693]， 
[-2.03011142, -3.07832136, 1.4420448 ， 9.62598044]]) 


.I 操作 符 实现 了 和 矩阵 求 逆 的 运算 。 非 常 简单 吧 ? 没有 NumPy 库 ， Python 也 不 能 这 么 容易 算出 
来 矩阵 的 逆 运 算 。 不 记得 或 者 没 学 过 和 矩阵 求 道 也 没关系 ,NumPy 库 帮 有 我 们 做 完了 ,执行 下 面 的 命 
令 存 储 逆 和 矩阵 ; 

>>> invRandMat = randMat.I 


接着 执行 矩阵 乘法 ， 得 到 抢 阵 与 其 道 矩阵 相 乘 的 结果 


>>> randMat*invRandMat 


matrix([[ 1.00000000e+00， 0.00000000e+00， 2.22044605e-16, 
1.77635684e-15] ， 

[ 0.00000000e+00， 1.00000000e+00， 0.00000000e+00， 
0.00000000e+00] ， 

[ 0.00000000e+00， 4.44089210e-16， 1,00000000e+00， 
-8.88178420e-16] ， 

[ -2.22044605e-16, 0.00000000e+00， 1 .11022302e-16， 


呈 


.00000000e+00]]) 

结果 应 该 是 单位 矩阵 ， 除 了 对 角 线 元 素 是 1，4 x 4 矩阵 的 其 他 元 素 应 该 全 是 0。 实 际 输出 结果 赂 有 
不 同 ,矩阵 里 还 留 下 了 许多 非常 小 的 元 素 ， 这 是 计算 机 处 理 误差 产生 的 结果 。 输 入 下 述 命令 ,得 
到 误差 值 : 


>>> myEye = randMat*invRandMat 
>>> myEye - eye(4) 


matrix({[ 0.00000000e+00， -6.59194921e-17, -4.85722573e-17, 
-4.99600361e-16]， 

[ 2.22044605e-16, 0.00000000e+00, -6.03683770e-16, 
-7.77156117e-16], 

[ -5.55111512e-17, -1.04083409e-17, -3.33066907e-16, 
-2.22044605e-16]， 

[ 5.55111512e-17， 1.56125113e-17, -5.55111512e-17， 


函数 eye (4) 创建 4x4 的 单位 矩阵 。 

只 要 能 够 顺利 地 完成 上 述 例子 , 就 说 明 已 经 正确 地 安装 了 NumPy 函 数 库 , 以 后 我 们 就 可 以 利 
用 它 构造 机 器 学 习 应 用 程序 。 即使 没有 提前 学 习 所 有 的 函数 也 没有 关系 , 本 书 将 在 需要 的 时 候 介 
绍 更 多 的 NumPy 函 数 库 的 功能 。 


1.8 本 章 小 结 


尽管 没有 引起 大 多 数 人 的 注意 , 但 是 机 器 学 习 算法 已 经 广泛 应 用 于 我 们 的 日 常生 活 之 中 。 每 
天 我 们 需要 处 理 的 数据 在 不 断 地 增加 , 能 够 深 和 人 理 解数 据 背后 的 真实 含义 , 是 数据 驱动 产业 必须 
具备 的 基本 技能 。 
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学 习 机 器 学 习 算法 ， 必 须 了 解数 据 实例 ,每 个 数据 实例 由 多 个 特征 值 组 成 。 分 类 是 基本 的 机 
器 学 习 任务 ， 它 分 析 未 分 类 数据 ， 以 确定 如 何 将 其 放 人 已 知 群 组 中 。 为 了 构建 和 训练 分 类 器 ， 必 
须 首先 输入 大 量 已 知 分 类 的 数据 ， 我 们 将 这 些 数据 称 为 训练 样本 集 。 

尽管 我 们 构造 的 鸟 类 识别 专家 系统 无 法 像 人 类 专家 一 样 精确 地 识别 不 同 的 鸟 类 , 然而 构建 接 
近 专 家 水 平 的 机 器 系统 可 以 显著 地 改进 我 们 的 生活 质量 。 如 果 我 们 可 以 构造 的 医生 专家 系统 能 够 
达到 人 类 医生 的 准确 率 , 则 病人 可 以 得 到 快速 的 治疗 ; 如 果 我 们 可 以 改进 天 气 预 报 ， 则 可 以 减少 
水 资源 的 短缺 ， 提 高 食物 供给 。 我 们 可 以 列举 许 许多 多 这 样 的 例子 ， 机 器 学 习 的 应 用 前 景 几乎 是 
人 它 是 监督 学 习 算法 的 一 个 分 支 ， 下 一 章 我 们 将 介绍 
第 一 个 分 类 算法 一 -大 近邻 算法 。 











第 2 章 
‘所 人 和 和 
kK- 近邻 算 法 

本 章 内 容 
口 k- 近 邻 分 类 算法 
口 从 文本 文件 中 解析 和 导入 数据 
口 使 用 Matplotlib 创 建 扩散 图 
口 归 一 化 数值 


众所周知 ， 电 影 可 以 按照 题材 分 类 ， 然 而 题材 本 身 是 如 何 定义 的 ?由 谁 来 判定 某 部 电影 属于 哪 
个 题材 ?也 就 是 说 同一 题材 的 电影 具有 哪些 公共 特征 ?这 些 都 是 在 进行 电影 分 类 时 必须 要 考虑 的 问 
题 。 没 有 哪个 电影 人 会 说 自己 制作 的 电影 和 以 前 的 某 部 电影 类 似 , 但 我 们 确实 知道 每 部 电影 在 风格 
上 的 确 有 可 能 会 和 同 题材 的 电影 相近 。 那 么 动作 片 具有 哪些 共有 特征 ， 使 得 动作 片 之 间 非 常 类 似 ， 
而 与 爱情 片 存在 着 明显 的 差别 呢 ? 动作 片 中 也 会 存在 接吻 镜头 , 爱情 片 中 也 会 存在 打斗 场景 , 我 们 
不 能 单纯 依靠 是 否 存 在 打斗 或 者 亲吻 来 判断 影片 的 类 型 。 但 是 爱情 片 中 的 亲吻 镜头 更 多 , 动作 片 中 
的 打斗 场景 也 更 频繁 , 基于 此 类 场景 在 某 部 电影 中 出 现 的 次 数 可 以 用 来 进行 电影 分 类 。 本章 第 一 节 
基于 电影 中 出 现 的 亲吻 、 打 斗 出 现 的 次 数 ， 使 用 上 近邻 算法 构造 程序 ， 自 动 划分 电影 的 题材 类 型 。 
我 们 首先 使 用 电影 分 类 讲解 大 近邻 算法 的 基本 概念 ， 然 后 学 习 如 何在 其 他 系统 上 使 用 上 近邻 算法 。 

本 章 介 绍 第 一 个 机 器 学 习 算 法 : 近邻 算法 ， 它 非常 有 效 而 且 易于 掌握 。 首 先 ， 我 们 将 探讨 
近邻 算法 的 基本 理论 ， 以 及 如 何 使 用 距离 测量 的 方法 分 类 物品 ; 其 次 我 们 将 使 用 Python 从 文本 文件 
中 导入 并 解析 数据 ; 再 次 , 本 书 讨论 了 当 存 在 许多 数据 来 源 时 .如何 避免 计算 距离 时 可 能 磁 到 的 一 
些 常见 错误 ; 最 后 ， 利 用 实际 的 例子 讲解 如 何 使 用 上 近邻 算法 改进 约会 网 站 和 手写 数字 识别 系统 。 


2.1 Kk- 近邻 算法 概述 

简单 地 说 ， 大 近邻 算法 采用 测量 不 同 特征 值 之 间 的 距离 方法 进行 分 类 。 

ER a kK 近邻 算法 i Ws 
优点 : 精度 高 、 对 异常 值 不 敏感 、 无 数据 输入 假定 。 


缺点 : 计算 复杂 度 高 、 空间 复杂 度 高 。 
适用 数据 范围 ; 数值 型 和 标 称 型 。 


| 
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本 书 讲解 的 第 一 个 机 器 学 习 算 法 是 上 近邻 算法 (kNN )， 它 的 工作 原理 是 : 存在 一 个 样本 数 
据 集合 ， 也 称 作 训练 样本 集 ， 并 且 样本 集中 每 个 数据 都 存在 标签 ， 即 我 们 知道 样本 集中 每 一 数据 
与 所 属 分 类 的 对 应 关系 。 输 入 没有 标签 的 新 数据 后 , 将 新 数据 的 每 个 特征 与 样本 集中 数据 对 应 的 
特征 进行 比较 ,然后 算法 提取 样本 集中 特征 最 相似 数据 ( 最 近邻 ) 的 分 类 标签 。 一 般 来 说 ， 我 们 
只 选择 样本 数据 集中 前 :个 最 相似 的 数据 ,这 就 是 上 近邻 算法 中 /的 出 处 ,通常 4 是 不 大 于 20 的 整数 。 
最 后 ， 选 择 f 个 最 相似 数据 中 出 现 次 数 最 多 的 分 类 ， 作 为 新 数据 的 分 类 。 

现在 我 们 回 到 前 面 电 影 分 类 的 例子 ， 使 用 上 近邻 算法 分 类 爱情 片 和 动作 片 。 有 人 曾经 统计 过 
很 多 电影 的 打斗 镜头 和 接吻 镜头 ， 图 2-1 显 示 了 6 部 电影 的 打斗 和 接吻 镜头 数 。 假 如 有 一 部 未 看 过 
的 电影 ， 如 何 确定 它 是 爱情 片 还 是 动作 片 呢 ? 我 们 可 以 使 用 kNN 来 解决 这 个 问题 。 


California Man 
He's Not Really into Dudes 
? 


Beautiful Woman 


Kevin Longblade 


Robo Slayer 3000 
Amped 1 


滋 共 米 泗 迁 涝 吕 沿 压 卫 涉 旺 





电影 中 出 现 的 打斗 镜头 次 数 
图 2-1 使 用 打斗 和 接吻 镜头 数 分 类 电影 


首先 我 们 需要 知道 这 个 未 知 电影 存在 多 少 个 打斗 镜头 和 接吻 镜头 ， 图 2-1 中 问号 位 置 是 该 未 
知 电影 出 现 的 镜头 数 图 形 化 展示 ， 具 体 数字 参见 表 2-1。 











表 2-1 每 部 电影 的 打斗 镜头 数 、 接 吻 镜 头 数 以 及 电影 评估 类 型 








电影 名 称 打斗 镜头 接吻 镜头 电影 类 型 
California Man 3 104 爱情 片 
He’'s Not Really into Dudes 2 100 爱情 片 
Beautiful Woman 1 81 爱情 片 
Kevin Longblade 101 10 动作 片 
Robo Slayer 3000 99 5 动作 片 
Amped Il 98 2 动作 片 
? 18 90 未 知 








”即使 不 知道 未 知 电影 属 于 哪 种 类 型 ,我 们 也 可 以 通过 某 种 方法 计算 出 来 。 首 先 计 算 未 知 电影 
与 样本 集中 其 他 电影 的 距离 ， 如 表 2-2 所 示 。 此 处 暂时 不 要 关心 如 何 计算 得 到 这 些 距离 值 ， 使 用 
Python 实现 电影 分 类 应 用 时 ， 会 提供 具体 的 计算 方法 。 


2.1 
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表 2-2 已 知 电影 与 未 知 电 影 的 距离 





电影 名 称 与 未 知 电影 的 距离 
California Man 20.5 
He's Not Really into Dudes 18.7 
Beautiful Woman 19.2 
Kevin Longblade 115.3 
Robo Slayer 3000 117.4 
Amped Il 118.9 








现在 我 们 得 到 了 样本 集中 所 有 电影 与 未 知 电影 的 距离 ， 按 照 距离 递增 排序 ， 可 以 找到 k 个 距 
离 最 近 的 电影 。 假 定夺 3， 则 三 个 最 靠近 的 电影 依次 是 He Not Really into Dudes、Beautiful Woman 
和 California Man。k- 近 邻 算法 按照 距离 最 近 的 三 部 电影 的 类 型 ,决定 未 知 电 影 的 类 型 ,而 这 三 部 
电影 全 是 爱情 片 ， 因 此 我 们 判定 未 知 电影 是 爱情 片 。 

本 章 主要 讲解 如 何在 实际 环境 中 应 用 太 近 邻 算 法 ， 同 时 涉及 如 何 使 用 Python 工具 和 相关 的 机 
器 学 习 术 语 。 按 照 1.5 节 开发 机 器 学 习 应 用 的 通用 步 又， 我 们 使 用 Python 语言 开发 上 近邻 算法 的 简 
单 应 用 ， 以 检验 算法 使 用 的 正确 性 。 


人 -近邻 算法 的 一 般 流程 
(1) 收集 数据 : 可 以 使 用 任何 方法 。 








0 


(2) 准备 数据 : 
(3) 分 析 数 据 : 
(4) 训练 算法 : 
(5) 测试 算法 : 
(6) 使 用 算法 : 


距离 计算 所 需要 的 数值 ， 最 好 是 结构 化 的 数据 格式 。 

可 以 使 用 任何 方法 。 

此 步骤 不 适用 于 太 近 邻 算法 。 

计算 错误 率 。 
首先 需要 输入 样本 数据 和 结构 化 的 输出 结果 ， 然 后 运行 大 近邻 算法 判定 输 





入 数据 分 别 属于 哪个 分 类 ， 最 后 应 用 对 计算 出 的 分 类 执行 后 续 的 处 理 。 


2.1.1 ”准备 :使 用 Python 导入 数据 


首先 ， 创 建 名 为 KNN.py 的 Python 模块 ,本 章 使 用 的 所 有 代码 都 在 这 个 文件 中 。 读者 可 以 按照 自 
己 的 习惯 学 习 代码 ， 既 可 以 按照 本 书 学 习 的 进度 ， 在 自己 创建 的 Python 文件 中 编写 代码 ， 也 可 以 直 
接 从 本 书 的 源 代码 中 复制 KNN.py 文 件 。 我 推荐 读者 从 头 开始 创建 模块 ， 按 照 学 习 的 进度 编写 代码 。 

无 论 大 家 采用 何 种 方法 , 我 们 现在 已 经 有 了 kNN.py 文 件 。 在 构造 完整 的 -近邻 算法 之 前 , 我 
们 还 需要 编写 一 些 基本 的 通用 函数 ， 在 kNN.py 文 件 中 增加 下 面 的 代码 ; 


from numpy import * 
import operator 


def createDataSet () : 


group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]》 
labels = ['A','A','B','B'] 
return group, labels 


在 上 面 的 代码 中 , 我 们 导入 了 两 个 模块 : 第 一 个 是 科学 计算 包 NumPy; 第 二 个 是 运算 符 模块 ， 








, 态 ~ a 
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上 近邻 算法 执行 排序 操作 时 将 使 用 这 个 模块 提供 的 函数 ， 后 面 我 们 将 进一步 介绍 。 现在 我 们 已 经 知道 Python 如 何 解析 数据 ， 如 何 加 载 数据 ， 以 及 KNN 算 法 的 工作 原理 ， 接 下 来 

为 了 方便 使 用 createDataset () 函数 ， 它 创建 数据 集 和 标签 ， 如 图 2-1 所 示 。 然 后 依次 执行 我 们 将 使 用 这 些 方法 完成 分 类 任务 。 
以 下 步骤 保存 kNN.py 文 件 ， 改 变 当前 路 径 到 存储 KNN.py 文 件 的 位 置 ， 打 开 Python 开 发 环境 。 "” \ 
无 论 是 Linux、Mac OS 还 是 Windows 都 需要 在 打开 终端 ， 在 命令 提示 符 下 完成 上 述 操作 。 只 要 我 2.1.2 ”从 文本 文件 中 解析 数据 2 





们 按照 默认 配置 安装 Python, 在 Linux/Mac OS 终端 内 都 可 以 直接 输入 python， 而 在 Windows 命 令 
提示 符 下 需要 输入 c:\Python2.6\python ,exe， 进入 Python 交 互 式 开发 环境 人 

进入 Python 开 发 环境 之 后 ， 输 入 下 列 命 令 导 人 上 面 编辑 的 程序 模块 

>>> import KkNN 
上 述 命 令 导入 kNN 模 块 。 为 了 确保 输入 相同 的 数据 集 ，kKNN 模 块 中 定义 了 函数 createDataset， 在 
Python 命 令 提 示 符 下 输入 下 属 命令 : 

>>> group,labels = kNN.createDataSet () 


上 述 命令 创建 了 变量 group 和 1abels, 在 Python 命 令 提示 符 下 , 输入 变量 的 名 字 以 检验 是 否 正确 


本 节 使 用 程序 清单 2-1 的 函数 运行 KNN 算 法 , 为 每 组 数据 分 类 。 这 里 首先 给 出 -近邻 算法 的 伪 
代码 和 实际 的 Python 人 代码， 然后 详细 地 解释 每 行 代码 的 含义 。 该 函数 的 功能 是 使 用 -近邻 算法 将 | 
每 组 数据 划分 到 某 个 类 中 ， 其 伪 代 码 如 下 : 
对 未 知 类 别 属性 的 数据 集中 的 每 个 点 依次 执行 以 下 操作 : | 
(1) 计算 已 知 类 别 数据 集中 的 点 与 当前 点 之 间 的 距离 ; 
(2) 按照 距离 递增 次 序 排序 ; 
(3) 选取 与 当前 点 距离 最 小 的 k 个 点; 
(4) 确定 前 K 个 点 所 在 类 别 的 出 现 频率 ; 








地 定义 变量 : (5) 返回 前 k 个 点 出 现 频 率 最 高 的 类 别 作 为 当前 点 的 预测 分 类 。 
>>> group ~ 一 
ai de 机 和 Python 函数 classify0 () 如 程序 清单 2-1 所 示 。 
[ 1. 王 
0. ， a 程序 清单 2-1 -近邻 算法 
0. . 


>>> labels 
[i'A', IA', 'B', 1B') 


这 里 有 4 组 数据 ， 每 组 数据 有 两 个 我 们 已 知 的 属性 或 者 特征 值 。 上 面 的 group 矩 阵 每 行 包含 一 个 
不 同 的 数据 ,我 们 可 以 把 它 想象 为 某 个 日 志文 件 中 不 同 的 测量 点 或 者 人 口 。 由 于 人 类 大 脑 的 限制 ， 
我 们 通常 只 能 可 视 化 处 理 三 维 以 下 的 事务 。 因 此 为 了 简单 地 实现 数据 可 视 化 , 对 于 每 个 数据 点 我 
们 通常 只 使 用 两 个 特征 。 


def classify0 {inx, dataSet, labels, k): 
dataSetSsize = dataSet .shape{0] 


diffMat = tile(inxX, (dataSetSize,1)) - dataset 
sqDiffMat = diffMat**2 距离 计算 





sqDistances = sqDiffMat.sum(axis=1) 
distances = sqDistances**0.5 
sortedDistIindicies = distances.argsort () 
classCount={} 

















本 名 行 or i in range : 选择 距离 最 小 
向 量 1abel 包 含 了 每 个 数据 点 的 标签 信息 label 包 含 的 元 素 个 数 等 于 group 短 阵 行 数 。 这 ee 2 labels [sortedDistIndicies [i]] pi 人 
里 我 们 将 数据 点 (1， 1.1) 定 义 为 类 A， 数据 点 (0， 0.1) 定 义 为 类 B。 为 了 说 明 方 便 ， 例子 中 的 数值 是 classCount [voteIlabel] = classCount.get (voteIlabel,0) + 1 
任意 选择 的 ， 并 没有 给 出 轴 标 答 ， 图 2.2 是 带 有 类 标签 信息 的 四 个 数据 点 。 td ne 
1.2 * T 一 T 页 return sortedClassCount{0} [0] 8 排序 
ol classify0() 函数 有 4 个 输入 参数 :用 于 分 类 的 输入 向 量 是 inX, 输入 的 训练 样本 集 为 dataSet， 
| 标签 向 量 为 1abels, 最 后 的 参数 x 表 示 用 于 选择 最 近邻 居 的 数目 ， 其 中 标签 向 量 的 元 素数 目 和 矩 
阵 Qataset 的 行 数 相同 。 程序 清单 2-1 使 用 欧 氏 距离 公式 , 计算 两 个 向 量 点 +4 和 xB8 之 间 的 距离 @: 
d= V(x4, —xB,) +(xA -xB) 
总 例如 ， 点 (0, 0) 与 (1, 2) 之 间 的 距离 计算 为 : 
0.0 6。 (1-0) +(2—0) 
2 如 果 数 据 集 存在 4 个 特征 值 ， 则 点 (1, 0, 0, 1 与 (7, 6, 9, 4) 之 间 的 距离 计算 为 : 
-图 2-2 大 近邻 算法 ， 带 有 4 个 数据 点 的 简单 例子 
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JI-D+(6-072+(9-07+(4-]) 
计算 完 所 有 点 之 间 的 距离 后 ， 可 以 对 数据 按照 从 小 到 大 的 次 序 排序 。 然 后 ， 确 定 前 k 个 距离 
最 小 元 素 所 在 的 主要 分 类 @， 输 入 ht 总 是 正 整数 最 后 ,将 classCount 字 上 典 分 解 为 元 组 列表 ， 然 后 
使 用 程序 第 二 行 导 入 运算 符 模 块 的 itemget ter 方 法 ,按照 第 二 个 元 素 的 次 序 对 元 组 进行 排序 命 。 


.此 处 的 排序 为 逆序 ， 即 按照 从 最 大 到 最 小 次 序 排序 ， 最 后 返回 发 生 频 率 最 高 的 元 素 标 签 。 


为 了 预测 数据 所 在 分 类 ， 在 Python 提 示 符 中 输入 下 列 命令 : 

>>> kNN.classify0([0,0], group, labels, 3) 

输出 结果 应 该 是 B， 大 家 也 可 以 改变 输入 [0, 0 为 其 他 值 ， 测 试 程序 的 运行 结果 。 

到 现在 为 止 , 我 们 已 经 构造 了 第 一 个 分 类 器 , 使 用 这 个 分 类 器 可 以 完成 很 多 分 类 任务 。 从 这 
个 实例 出 发 ， 构 造 使 用 分 类 算法 将 会 更 加 容易 。 


2.1.3 如何 测 试 分 类 器 


上 文 我 们 已 经 使 用 -近邻 算法 构造 了 第 一 个 分 类 器 ,也 可 以 检验 分 类 器 给 出 的 答案 是 否 符合 
我 们 的 预期 。 读 者 可 能 会 问 :“ 分 类 器 何 种 情况 下 会 出 错 ? ”或 者 “ 管 案 是 否 总 是 正确 的 ? ” 答 
案 是 否定 的 ,分 类 器 并 不 会 得 到 百 分 百 正确 的 结果 ,我们 可 以 使 用 多 种 方法 检测 分 类 器 的 正确 率 。 
此 外 分 类 器 的 性 能 也 会 受到 多 种 因素 的 影响 ,如 分 类 器 设置 和 数据 集 等 。 不 同 的 算法 在 不 同 数据 
集 上 的 表现 可 能 完全 不 同 ， 这 也 是 本 部 分 的 6 章 都 在 讨论 分 类 算法 的 原因 所 在 。 

为 了 测试 分 类 器 的 效果 , 我 们 可 以 使 用 已 知 答案 的 数据 ， 当 然 答案 不 能 告诉 分 类 器 ， 检 验 分 
类 器 给 出 的 结果 是 否 符合 预期 结果 。 通 过 大 量 的 测试 数据 , 我 们 可 以 得 到 分 类 器 的 错误 率 一 分 
类 器 给 出 错误 结果 的 次 数 除 以 测试 执行 的 总 数 。 错 误 率 是 常用 的 评估 方法 ， 主 要 用 于 评估 分 类 咒 
在 某 个 数据 集 上 的 执行 效果 。 完 美 分 类 器 的 错误 率 为 0， 最 差分 类 器 的 错误 率 是 1.0， 在 这 种 情况 
下 ， 分 类 器 根本 就 无 法 找到 一 个 正确 答案 。 读 者 可 以 在 后 面 章节 看 到 实际 的 数据 例子 。 

上 一 节 介 绍 的 例子 已 经 可 以 正常 运转 了 , 但 是 并 没有 太 大 的 实际 用 处 , 本 章 的 后 两 节 将 在 现 
实 世 界 中 使 用 近邻 算法 。 首 先 ， 我们 将 使 用 近邻 算法 改进 约会 网 站 的 效果 ， 然 后 使 用 k- 近 入 
算法 改进 手写 识别 系统 。 本 书 将 使 用 手写 识别 系统 的 测试 程序 检测 近邻 算法 的 效果 。 


2.2 示例 : 使 用 K- 近 邻 算法 改进 约会 网 站 的 配对 效果 


我 的 朋友 海伦 一 直 使 用 在 线 约会 网 站 寻找 适合 自己 的 约会 对 象 。 尽管 约会 网 站 会 推荐 不 同 的 
人 选 ， 但 她 没有 从 中 找到 喜欢 的 人 。 经 过 一 番 总 结 ， 她 发 现 曾 交往 过 三 种 类 型 的 人 : 

口 不 喜欢 的 人 

口 魅力 一 般 的 人 

口 极 具 魅 力 的 人 

尽管 发 现 了 上 述 规律 , 但 海伦 依然 无 法 将 约会 网 站 推荐 的 匹配 对 象 归 入 恰当 的 分 类 。 她 觉得 
可 以 在 周一 到 周 五 约会 那些 魅力 一 般 的 人 , 而 周末 则 更 喜欢 与 那些 极 具 魅 力 的 人 为 伴 。 海 伦 希 望 
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我 们 的 分 类 软件 可 以 更 好 地 帮助 她 将 匹配 对 象 划分 到 确切 的 分 类 中 。 此 外 海伦 还 收集 了 一 些 约会 

网 站 未 曾 记录 的 数据 信息 ， 她 认为 这 些 数 据 更 有 助 于 匹配 对 象 的 归 类 。 

示例 ， 在 约会 网 站 上 使 用 近邻 算法 5 

(1) 收集 数据 ， 提供 文本 文件 。 

(2) 准备 数据 ; 使 用 Python 解析 文本 文件 。 

(3) 分 析 数 据 : 使 用 Matplotlib 画 二 维 扩 散 图 。 

(4) 训练 算法 : 此 步骤 不 适用 于 大 近邻 算法 。 

(5) 测试 算法 : 使 用 海伦 提供 的 部 分 数据 作为 测试 样本 。 
测试 样本 和 非 测试 样本 的 区 别 在 于 : 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 预 测 分 类 
与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 | 

(6) 使 用 算法 : 产生 简单 的 命令 行程 序 ， 然 后 海伦 可 以 输入 一 些 特征 数据 以 判断 对 方 是 否 
为 自己 喜欢 的 类 型 。 


2.2.1 准备 数据 ;从 文本 文件 中 解析 数据 


海伦 收集 约会 数据 已 经 有 了 一 段 时 间 ， 她 把 这 些 数据 存放 在 文本 文件 datingTestSet.txt 中 ， 每 
个 样本 数据 占据 一 行 ， 总 共有 1000 行 。 海 伦 的 样本 主要 包含 以 下 3 种 特征 : 

口 每 年 获得 的 飞行 常客 里 程 数 

口 玩 视频 游戏 所 耗 时 间 百 分 比 

口 每 周 消费 的 冰淇淋 公升 数 

在 将 上 述 特征 数据 输入 到 分 类 器 之 前 , 必须 将 待 处 理 数据 的 格式 改变 为 分 类 器 可 以 接受 的 格 
式 。 在 kKNN.py 中 创建 名 为 file2matrix 的 函数 ， 以 此 来 处 理 输入 格式 问题 。 该 函数 的 输入 为 文 
件 名 字符 串 ， 输 出 为 训练 样本 矩阵 和 类 标签 向 量 。 

将 下 面 的 代码 增加 到 kNN.py 中 。 


程序 清单 2-2 将 文本 记录 到 转换 NumPy 的 解析 程序 
def file2matrix(filename): 

fr = open (filename) 

arrayOLines = fr.readlines{) 

numberOfLines = len(arrayObLines) 

returnMat = zeros( (numberOfLines,3)) 

classLabelVector = [] 

index = 0 

for line in arrayOLines 
line = line.strip() 
listFromLine = line.split('\t’') 
returnMat [index,:] = listFromLine[0:3] 
classLabelVector.append (int (listFromLine[-1])) 
index += 1 

return returnMat,classLabelVector 


NE 得 到 文件 行 数 
“6 创建 返回 的 NumPy 和 矩阵 


i 
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从 上 面 的 代码 可 以 看 到 ,Python 处 理 文本 文件 非常 容易 。 首先 我 们 需要 知道 文本 文件 包含 多 
少 行 。 打 开 文 件 ,得 到 文件 的 行 数 @。 然 后 创建 以 零 填充 的 矩阵 NumPy@@ ( 实际 上 ，NumPy 是 一 
个 二 维 数组 ， 这 里 暂时 不 用 考虑 其 用 途 )。 为 了 简化 处 理 ， 我 们 将 该 矩阵 的 另 一 维度 设置 为 固定 
值 3， 你 可 以 按照 自己 的 实际 需求 增加 相应 应 的 代码 以 适应 变化 的 输入 值 。 循 环 处 理 文件 中 的 每 行 
Re 首先 使 用 函数 1ine,strip() 截 取 掉 所 有 的 回 车 字符 ， 然后 使 用 tab 字 符 \t 将 上 一 步 得 
到 的 整 行 数据 分 割 成 一 个 元 素 列表 。 接 着 ,我 们 选取 前 3 个 元 素 , 将 它们 存 储 到 特征 矩阵 中 。Python 
语言 可 以 使 用 索引 值 -1 表示 列表 中 的 最 后 一 列 元 素 , 利用 这 种 负 索 引 ， 我 们 可 以 很 方便 地 将 列表 
的 最 后 一 列 存储 到 向 量 classLabelVector 中 。 需 要 注意 的 是 ， 我 们 必须 明确 地 通知 解释 器 , 告 
诉 它 列 表 中 存储 的 元 素 值 为 整 型 ， 否 则 Python 语言 会 将 这 些 元 素 当 作 字 符 串 处 理 。 以 前 我 们 必须 
自己 处 理 这些 变 量 值 类 型 问题 ， 现 在 这 些 细节 问题 完全 可 以 交 给 NumPy 函 数 库 来 处 理 。 

在 Python 命令 提示 符 下 输入 下 面 命令 : 


>>> reload (kNN) 
>>> datingDataMat,datingLabels = kNN .file2matrix('dqatingTestSet .txt') 


使 用 函数 file2matrix 读 取 文件 数据 , 必须 确保 文件 datingTestSet.txt 存 储 在 我 们 的 工作 目录 
中 。 此 外 在 执行 这 个 函数 之 前 ， 我 们 重新 加 载 了 KNN.py 模 块 ， 以 确保 更 新 的 内 容 可 以 生效 ， 否 
则 Python 将 继续 使 用 上 次 加 载 的 KNN 模 块 。 
人 可 以 简单 检查 一 下 数据 内 容 。Python 的 输出 结 
果 大 致 如 下 : 


>>> datingDataMat 


atray([[ 7.29170000e+04, 7.10627300e+00， 2.23600000e-01]， 
[ 1.42830000e+04, 2.44186700e+00, 1.90838000e-01]， 
[ 7.34750000e+04， 8.31018900e+00, 8.52795000e-01] ， 
[ 1.24290000e+04, 4.43233100e+00， 9.24649000e-01]， 
[ 2.52880000e+04, 1.31899030e+01, 1.05013800e+00] ， 
[ 4.91800000e+03, 3.01112400e+00, 1.90663000e-01]1) 


>>> datingLabels [0:20] 
E37 2 TL TL Ly 3 Sey 3 2 Tr ds le Tr 1 2 3] 


现在 已 经 从 文本 文件 中 导入 了 数据 , 并 将 其 格式 化 为 想 要 的 格式 ,接着 我 们 需要 了 解数 据 的 
真实 含义 。 当 然 我 们 可 以 直接 浏览 文本 文件 , 但 是 这 种 方法 非常 不 友好 ， 一 般 来 说 ,我 们 会 采用 
图 形 化 的 方式 直观 地 展示 数据 。 下 面 就 用 Python 工 具 来 图 形 化 展示 数据 内 容 ， 以 便 辨识 出 一 些 数 
据 模式 。 


NumPy 数 组 和 Python 数 组 . 
本 书 将 大 量 使 用 NumPy 数 组 ， 你 既 可 以 直接 在 Python 命令 行 环境 中 输入 from numpy 
import array 将 其 导入 ， 也 可 以 通过 直接 导入 所 有 NumPy 库 内 容 来 将 其 导入 。 由 于 NumPy 
库 提供 的 数组 操作 并 不 支持 Python 自 带 的 数组 类 型 , 因此 在 编写 代码 时 要 注意 不 要 使 用 错误 的 
数组 类 型 。 
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2.2.2 分析 数据 : 使 用 Matplotlib 创建 散 点 图 
首先 我 们 使 用 Matplotlib 制 作 原始 数据 的 散 点 图 ， 在 Python 命令 行 环境 中 ， 输 入 下 列 命令 ; 


>>> import matplotlib 
>>> import matplotlib.pyplot as plt 


>>> fig = plt.figure() 


>>> ax = fig.add subplot (111) 





>>> ax.scatter(datingDataMat [:,1], datingDataMat[:,2]) 
>>> plt.show!() 


输出 效果 如 图 2.3 所 示 。 散 点 图 使 用 datingDataMat 乱 阵 的 第 二 、 第 三 列 数 据 ， 分 别 表示 特征 
值 “ 玩 视频 游戏 所 耗 时 间 百分比 ”和 “每 周 所 消费 的 冰淇淋 公升 数 "。 
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玩 视频 游戏 所 耗 时 间 百 分 比 


图 2-3 ”没有 样本 类 别 标签 的 约会 数据 散 点 图 。 难 以 辨识 图 中 的 点 究 况 属于 哪个 样本 分 类 


由 于 没有 使 用 样本 分 类 的 特征 值 ， 我 们 很 难 从 图 2-3 中 看 到 任何 有 用 的 数据 模式 信息 。 一 般 
来 说 , 我 们 会 采用 色彩 或 其 他 的 记号 来 标记 不 同样 本 分 类 , 以 便 更 好 地 理解 数据 信息 。Matplotlib 
库 提 供 的 scatter 函 数 支持 个 性 化 标记 散 点 图 上 的 点 。 重 新 输入 上 面 的 代码 ,调用 scatter 函 数 
时 使 用 下 列 参数 : 


>>> ax.scatter (datingDataMat [:,1]，datingDataMat [:,2]， 
15.0*array (GatingLabels), 15.0*array (datingLabels)) 


上 述 代码 利用 变量 datingLabels 存 储 的 类 标签 属性 , 在 散 点 图 上 绘制 了 色彩 不 等 、 尺 寸 不 同 的 
点 。 你 可 以 看 到 一 个 与 图 2-3 类 似 的 散 点 图 。 从 图 2-3 中 ， 我 们 很 难看 到 任何 有 用 的 信息 ， 然 而 由 
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于 图 2-4 利 用 颜色 及 尺寸 标识 了 数据 点 的 属性 类 别 ， 因 而 我 们 基本 上 可 以 从 图 2-4 中 看 到 数据 点 所 
属 三 个 样本 分 类 的 区 域 轮廓。 


瘀 半 沪 江洲 尖 革 出 六 玖 肤 
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i 鞠 视频 游戏 所 耗 时 间 百分比 
图 2.4 带 有 样本 分 类 标签 的 约会 数据 散 点 图 。 虽然 能 够 比较 容易 地 区 分 数据 点 从 属 类 
别 ， 但 依然 很 难 根据 这 张 图 得 出 结论 性 信息 
本 节 我 们 学 习 了 如 何 使 用 Matplotib 库 图 形 化 展示 数据 ， 图 2-4 使 用 了 矩阵 属性 列 0 和 1 展示 数 
据 ， 虽 然 可 以 区 别 ， 但 图 2-5 采 用 不 同 的 属性 值 可 以 得 到 更 好 效果 ， 图 中 清晰 地 标识 了 三 个 不 同 
的 样本 分 类 区 域 ， 具 有 不 同 爱好 的 人 其 类 别 区 域 也 不 同 。 














0 20000 40000 60000 80000 100000 
每 年 获取 的 飞行 常客 里 程 数 
图 2-5 每 年 赢得 的 飞行 常客 里 程 数 与 玩 视频 游 戏 所 占 百分比 的 约会 数据 散 点 图 。 约 会 


数据 有 三 个 特征 ， 通 过 图 中 展示 的 两 个 特征 更 容易 区 分 数据 点 从 属 的 类 别 
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2.2.3 ”准备 数据 ， 归 一 化 数值 


表 2-3 给 出 了 提取 的 四 组 数据 ， 如 果 想 要 计算 样本 3 和 样本 4 之 间 的 距离 ， 可 以 使 用 下 面 的 
方法 : 

0-67): +(20 000—32 000): +01.1—0.1) 

我 们 很 容易 发 现 ， 上 面 方程 中 数字 差 值 最 大 的 属性 对 计算 结果 的 影响 最 大 , 也 就 是 说 ， 每 年 
获取 的 飞行 常客 里 程 数 对 于 计算 结果 的 影响 将 远 远大 于 表 2-3 中 其 他 两 个 特征 一 一 玩 视频 游戏 的 
和 每 周 消费 冰淇淋 公升 数 - 的 影响 。 而 产生 这 种 现象 的 唯一 原因 , 仅仅 是 因为 飞行 常客 里 程 数 
远大 于 其 他 特征 值 。 但 海伦 认为 这 三 种 特征 是 同等 重要 的 ， 因 此 作为 三 个 等 权重 的 特征 之 一 ， 飞 
行 常 客 里 程 数 并 不 应 该 如 此 严重 地 影响 到 计算 结果 。 

表 2-3 ”约会 网 站 原始 数据 改进 之 后 的 样本 数据 
玩 视频 游戏 所 耗 时 间 百分比 “每 年 获得 的 飞行 常客 里 程 数 每 周 消费 的 冰淇淋 公升 数 。 ”样本 分 类 











0.8 400 0.5 1 
12 134 000 0.9 3 
0 20 000 1 .1 2 
67 32 000 0.1 2 


在 处 理 这 种 不 同 取 值 范 围 的 特征 值 时 , 我 们 通常 采用 的 方法 是 将 数值 归 一 化 , 如 将 取 值 范围 
处 理 为 0 到 1 或 者 -1 到 1 之 间 。 下 面 的 公式 可 以 将 任意 取 值 范围 的 特征 值 转化 为 0 到 1 区 间 内 的 值 ， 


newValue = {oldValue-min)/ (max-min) 


其 中 min 和 max 分 别 是 数据 集中 的 最 小 特征 值 和 最 大 特征 值 。 虽 然 改 变数 值 取 值 范围 增加 了 
分 类 器 的 复杂 度 ， 但 为 了 得 到 准确 结果 ， 我 们 必须 这 样 做 。 我 们 需要 在 文件 kNN.py 中 增加 一 个 
新 函数 autoNorm() ， 该 函数 可 以 自动 将 数字 特征 值 转化 为 0 到 1 的 区 间 。 

程序 清单 2-3 提 供 了 函数 autoNorm() 的 代码 。 


程序 清单 2-3” 归 一 化 特征 值 
def autoNorm(dataSset).: 

minVals = dataSet .min(0) 
maxVals = QataSet .max(0) 
ranges = maxVals - minVals 
normDataSet = zeros (shape (dataset)) 
m = dataset .shape [0] 
normDataSet = dataSet - tile(minVals，(m,1)) 
normDataSet = normDataSet/tile(ranges, (m,1)) 
return normDataset, ranges, minVvals 


-一 -一 一 -一 一 一 
家 mm 间 一 


.9 特征 值 相 除 


在 函数 autoNorm() 中 ， 我 们 将 每 列 的 最 小 值 放 在 变量 minvals 中 ， 将 最 大 值 放 在 变量 


maxVals 中 ， 其 中 dataSet .min (0) 中 的 参数 0 使 得 函数 可 以 从 列 中 选取 最 小 值 ， 而 不 是 选取 当 


前 行 的 最 小 值 。 然 后 ， 函 数 计算 可 能 的 取 值 范围 ， 并 创建 新 的 返回 矩阵 。 正 如 前 面 给 出 的 公式 ， 
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为 了 归 一 化 特征 值 , 我们 必须 使 用 当前 值 减 去 最 小 值 , 然后 a 
值 矩 阵 有 1000 x 3 个 值 ， 而 minVals 和 range 的 值 都 为 1 x 3。 解决 个 问 古 ， 

库 中 tile() 函数 将 变量 内 容 复 制 成 输入 矩阵 同样 大 小 的 矩阵 ee 
对 于 某 些 数值 处 理 软件 包 ， /可 能 意味 着 矩阵 除法 ， 但 在 NumPy 库 中 ， 矩阵 除法 需 


1inalg.solve (matR,rmatB) 。 


在 Python 命 令 提示 符 下 , 重新 加 载 KNN.py 模 块 ， 执行 autoNorm 函 数 , 检测 函数 的 执行 结果 : 


>>> reload (kNN) 
>>> normMat, ranges, minVals = kNN .autoNorm (datingDataMat) 


>>> normMat 
array ([{ 0.33060119, 0.58918886, 0.69043973] ， 
{ 0.49199139, 0.50262471， 0.134682571] ， 
[ 0.34858782, 0.68886842, 0.59540619] ， 


[ 0 .93077422， 0.52696233， 0.58885466] ， 
[ 0.76626481, 0.44109859， 0.88192528] ， 
[ 0.0975718 ， 0.02096883， 0.02443895]] ) 
>>> ranges 
artray([ 8.78430000e+04, 
>>> minVals 
array([ 0. “= 负 


这 里 我 们 也 可 以 只 返回 normMat 和 矩阵 ， 但 是 下 一 节 我 们 将 需要 取 值 范围 和 最 小 值 归 一 化 测试 
数据 。 


2.2.4 ”测试 算法 ， 作 为 完整 程序 验证 分 类 器 


上 节 我 们 已 经 将 数据 按照 需求 做 了 处 理 ， 本 节 我 们 将 测试 分 类 器 的 效果 ， 和 
率 满足 要 求 , 海伦 就 可 以 使 用 这 个 软件 来 处 理 约会 网 站 提供 的 约会 名 单 了 。 i | . 
重要 的 工作 就 是 评估 算法 的 正确 率 ， 通 党 我 们 只 提供 已 有 数据 的 90% 作 为 训练 样本 来 训练 分 
器 ， 而 使 用 其 余 的 10% 数 据 去 测试 分 类 吕 ， 检测 分 类 器 的 正确 率 。 本 书后 续 草 下 还 会 机 
级 方法 完成 同样 的 任务 ， 这 里 我 们 还 是 采用 最 原始 的 做 法 。 需要 注意 的 是 ， TO > 
是 随机 选择 的 ， 由 于 海伦 提供 的 数据 并 没有 按照 特定 目 的 来 排序 ， 所 以 我 们 可 以 随意 选择 10% 
据 而 不 影响 其 随机 性 。 本 

前 面 我 们 已 经 提 到 可 以 使 用 错误 率 来 检测 分 类 器 的 性 能 。 对 于 分 类 器 来 说 ， 错 误 率 就 是 分 类 
器 给 出 错误 结果 的 次 数 除 以 测试 数据 的 总 数 ， 完美 分 类 器 的 错误 率 为 0， 而 错误 率 为 1.0 的 分 类 咒 
不 会 给 出 任何 正确 的 分 类 结果 。 代码 里 我 们 定义 一 个 计数 器 变量 ， 每 次 分 类 咒 错 误 地 分 类 数据 ， 
计数 器 就 加 1， 程序 执行 完成 之 后 计数 器 的 结果 除 以 数据 点 总 数 即 是 错误 率 。 本 

为 了 测试 分 类 器 效果 ， 在 KNIN.py 文 件 中 创建 函数 aatingClassTest， 该 函数 是 自 包含 的 ， 
你 可 以 在 任何 时 候 在 Python 运行 环境 中 使 用 该 函数 测试 分 类 器 效果 。 在 kNN.py 文 件 中 输入 下 面 的 
程序 代码 。 


2.02823930e+01， 1.69197100e+00] ) 


0.001818] ) 
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程序 清单 2-4 ”分 类 器 针对 约会 网 站 的 测试 代码 
def datingClassTest(): - 
hoRatio = 0.10 
datingDataMat ,datingLabels = file2matrix('datingTestSet .txt') 
normMat, ranges, minVals = autoNorm(datingDataMat) 
m = normMat .shape [0]} 
numTestVecs = int (mt*hoRatio) 
. errorCount = 0.0 
for i in range (numTestVecs): 
classifierResult = classify0 (normMat [i,:] ,normMat {numTestVecs:m,:],\ 
datingLabels [numTestVecs:m] ,3) 
print "the classifier came back with: %d, the real answer is: gd'"\ 
% {classifierResult, datingLabelsg [i]) 
if (classifierResult != datingLabels [i]): errorCount += 1.0 
print “the total error rate is: %f" % (errorCount/float (numTestVecs)) 
函数 datingclassTest 如 程序 清单 2-4 所 示 , 它 首先 使 用 了 file2matrix 和 autoNorm() 国 
数 从 文件 中 读 取 数 据 并 将 其 转换 为 归 一 化 特征 值 。 接 着 计算 测试 向 量 的 数量 ， 此 步 决 定 了 
normMat 向 量 中 哪些 数据 用 于 测试 , 哪些 数据 用 于 分 类 器 的 训练 样本 ; 然后 将 这 两 部 分 数据 输入 
到 原始 KNN 分 类 器 函数 classi fy0。 最 后 ， 函 数 计算 错误 率 并 输出 结果 。 注 意 此 处 我 们 使 用 原始 
分 类 器 , 本 章 花 费 了 大 量 的 篇 幅 在 讲解 如 何 处 理 数据 ,如 何 将 数据 改造 为 分 类 器 可 以 使 用 的 特征 
值 。 得 到 可 靠 的 数据 同样 重要 ， 本 书后 续 的 章节 将 介绍 这 个 主题 。 
在 Python 命令 提示 符 下 重新 加 载 KNN 模 块 ， 并 输入 kNN.aatingclassmest () ， 执 行 分 类 器 
测试 程序 ， 我 们 将 得 到 下 面 的 输出 结果 ， 
>>> kNN.datingClassTest () 
the classifier came back with: 1, the real answer is: 1 
the classifier came back with: 2, the real answer igs: 2 


the classifier came back with: 1, the real answer is: 
the classifier came back with: 2, the real answer is: 
the classifier came back with: 3, the real answer ig: 
the classifier came back with: 
the classifier came back with: 2, the real answer is: 
the total error rate is: 0.024000 


分 类 器 处 理 约会 数据 集 的 错误 率 是 2.4%， 这 是 一 个 相当 不 错 的 结果 。 我 们 可 以 改变 函数 
datingClassTest 内 变量 hoRatio 和 变量 k 的 值 , 检测 错误 率 是 否 随 着 变量 值 的 变化 而 增加 。 依 
赖 于 分 类 算法 、 数 据 集 和 程序 设置 ， 分 类 器 的 输出 结果 可 能 有 很 大 的 不 同 。 

这 个 例子 表明 我 们 可 以 正确 地 预测 分 类 , 错误 率 仅仅 是 2.4%。 海伦 完全 可 以 输入 未 知 对 象 的 
属性 信息 ， 由 分 类 软件 来 帮助 她 判定 某 一 对 象 的 可 交往 程度 : 讨厌 、 一 般 喜 欢 、 非 常 喜 欢 。 


2.2.5 ”使 用 算法 ， 构建 完整 可 用 系统 


上 面 我 们 已 经 在 数据 上 对 分 类 器 进行 了 测试 , 现在 终于 可 以 使 用 这 个 分 类 器 为 海伦 来 对 人 们 
分 类 。 我 们 会 给 海伦 一 小 段 程序 ， 通 过 该 程序 海伦 会 在 约会 网 站 上 找到 某 个 人 并 输入 他 的 信息 。 
程序 会 给 出 她 对 对 方 喜 欢 程度 的 预测 值 。 


3, the real answer is: 
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(4) 训练 算法 : 此 步骤 不 适用 于 kk- 近邻 算法 。 

(5) 测试 工法 : 编写 函数 使 用 提供 的 部 分 数据 集 作为 测试 样本 ， 测 试 样本 与 非 测 试 样本 
的 区 别 在 于 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 预 测 分 类 与 实际 类 别 不 同 ， 则 标记 
为 一 个 错误 。 

(6) 使 用 算法 : 本 例 没 有 完成 此 步骤 ， 若 你 感 兴趣 可 以 构建 完整 的 应 用 程序 ， 从 图 像 中 提 
取 数 字 ， 并 完成 数字 识别 ， 美 国 的 邮件 分 拣 系 统 就 是 一 个 实际 运行 的 类 似 系统 。 


将 下 列 代码 加 入 到 kNN.py 并 重新 载 信 NN。 
程序 清单 2-5 ”约会 网 站 预测 函数 


i rson(): 
i ee . 人 at all','in small doses', 'in large doses']} 
percentTats = float (raw_input (\ | 有 
"percentage of time spent playing video games? ) ) 

ffMiles = float (raw_ input ("frequent flier miles earned per year? )) 
iceCream = float (raw input ("liters of ice cream consumed per year? ) ) 
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 
normMat, ranges, minVvals = autoNorm(datingDataMat) 
inArr = array({ffMiles, percentTats, iceCream]) 
classifierResult = classify0 ((inArr-\ 

minvals) /ranges, normMat, datingLabels, 3) 
print "You will probably like this person: WN, 

resultList [classifierResult - 1] 


» 








2.3.1 ”准备 数据 ， 将 图 像 转换 为 测试 向 量 


| 

实际 图 像 存储 在 第 2 章 源 代码 的 两 个 子 目 录 内 : 目录 trainingDigits 中 包含 了 大 约 2000 个 例子 ， 

| ”每 个 例子 的 内 容 如 图 2-6 所 示 , 每 个 数字 大 约 有 200 个 样本 ; 目录 testDigits 中 包含 了 大 约 900 个 测试 

| 数据 。 我 们 使 用 目录 trainingDigits 中 的 数据 训练 分 类 器 ， 使 用 目录 testDigits 中 的 数据 测试 分 类 器 
上 述 程序 清单 中 的 大 部 分 代码 我 们 在 前 面 都 见 过 。 唯一 新 加 入 的 代码 是 函数 raw_input ()。 | 的 效果 。 两 组 数据 没有 和 覆盖， 你 可 以 检查 一 下 这 些 文件 夹 的 文件 是 否 符合 要 求 。 



















实际 运行 效果 , 输入 
pk SS 
该 许 用 户 输入 文本 行 命令 并 返回 用 户 所 输入 的 命令 。 为 了 解 程序 的 实 未 运 们 ? 人 0 BN 
该 函 V 中 中 nnAnnoanannnAniapiiitit1ttAnnnn nnnnst tt onmmAonnngiaig donnenant i ttttit nm A 
Dao ass ET DL Tl] 
全 - 八 BOGASBAGHBL LAL OB 
下 [J : MARAARAAIBAT I EAI FLA AGHNAAr tt nn Hat 
HHH 
， HUAIIGM LL LI MAL 1 LAGBARV GM 
>>> kNN.classifyPerson( ) nrAngmAartiitt angi ane nnmtant ts Ome ts Len NAN 村 二 二 本村 8 让 革 411 
， j ?10 WUBOAMIILL EAL I OGG LG AHS LS 
percentage of time spent playing video games 1 po8GnB91 1 LLMBGOADHMAL LILI GVORRAB GAARA SHA ! | 了 BE 
4 ， D j MMAGoMLIL 1 LIRAAdGL an nAdsdtpttn tL nme Cs 
frequent flier miles earned per year? 10000 HU £4 AYE 
3 d ar?0.5 DA LD EL a 二 
liters of ice cream consumed per ye ei 站 1111 | 1 UIA BI CR tT 11 Bl EL 
和 ， ST A 二 二 1 £441 
You will probably like this person: in small doses RAOMHASHBUNAL LS ana LL Lt ssc er 
据 让 人 看 起 来 都 很 容易 IUD ! t {11 ! [| 1} 1 OARAHMU HO aleaatet | + 41 | 间 | 1 | ! ! 90 
: HHHGBUUGG 人 1 111 1 NUSUGNG HG TT 
目 前 为 止 我 们 已 经 看 到 如 何在 数据 上 构建 分 类 器 。 这 里 所 有 的 数 上 RonAAMAomnionent i antonm a tama a dna 
? — vi 国 络 和 全 好 纤 后 本本 扫 二 二 下 
和 咀 呢 ? 从 下 一 节 的 例子 中 我 们 会 看 到 如 何在 二 进 HHAOOUIHOINMIRGHGE LE SE SCE 
日 是 如 何在 人 不 太 容易 看 懂 的 数据 上 使 用 分 类 器 呢 . 本 » PHRNADDBRHDUDnRELETTTBRRRDHRUnDBDD vonngonnnutnsttt 180RMAOMmABad Am 1 
| BUBGUHS A 
UGGVOUGHONSINL LLL LMA GOGH 
| A 的 图 像 数 据 上 使 用 kNN ANNANSInmABonniitimnAnnAnn nmrnnAngtt £1 tt A Ba i 
于 ? HOGI 
OUIUGIIDGIGHIL LE 本 人 89Ht98N 丰 11 人 上 [TI 
HOAnAInnnnm titan nn snAspi tttstt [WT TT TT 
HAM 二 全 
号 * 口 口 HHANGGHOBDMSMBL LIner Fao Lt [TT A 
| 当 手 与 1 系 MmannAnAsiantiit nana nA tm AEA 1 
前 人 小 \ . Ww、 力 JN 和 仿生 村 HH 村 生 委 时 和 生生 千村 村 村 二 主谋 壮 寻 所 寻 二 生生 的 全 1 tMHGMDIMH 和 A 
% YY pz 
; 识别 系统 。 为 了 简单 起 见 ， 这 里 构造 的 系统 -6 手 
本 节 我 们 一 步 步 地 构造 使 用 -近邻 分 类 器 的 手写 识别 系统 。 为 了 简单 起 见 ， 这 里 构造 的 系 图 2-6 手写 数字 数据 集 的 例子 


只 能 识别 数字 0 到 9， 参 见 图 2.6。 需 要 识别 的 数字 已 经 使 用 图 形 处 理 软件 ， 处 理 成 具有 相同 的 色 
彩 和 大 小 ?， 宽 高 是 32 像 素 x 32 像 素 的 黑白 图 像 。 尽管 采用 文本 格式 存储 图 像 不 能 有 效 地 利用 内 
存 空间 ,但 是 为 了 方便 理解 ， 我 们 还 是 将 图 像 转换 为 文本 格式 .。 


为 了 使 用 前 面 两 个 例子 的 分 类 器 ， 我 们 必须 将 图 像 格 式 化 处 理 为 一 个 向 量 。 我 们 将 把 一 个 32 x 
32 的 二 进 制 图 像 矩 阵 转换 为 1 x 1024 的 向 量 ， 这 样 前 两 节 使 用 的 分 类 器 就 可 以 处 理 数字 图 像 信 息 了 。 
我 们 首先 编写 一 段 函 数 img2vector ， 将 图 像 转换 为 向 量 ， 该 函数 创建 1 x 1024 的 NumPy 数 
二 ea 组 , 然后 打开 给 定 的 文件 , 循环 读 出 文件 的 前 32 行 ， 并 将 每 行 的 头 32 个 字符 值 存储 在 NumPy 数 组 
EA : ”示例 : 使 用 k- 近 邻 算法 的 手写 识别 系统 | 中 ， 最 后 返回 数组 。 
(1) 收集 数据 : 提供 文本 文件 。 | def img2vector (filename) : 
(2) 准备 数据 : 编写 西数 classify0() ， 将 图 像 格式 转换 为 分 类 器 使 用 的 list 格 式 。 returnVect = zeros((1,1024)) 


fr = open (filename) 
(3) 分 析 数 据 : 在 Python 命 令 提 示 符 中 检查 数据 ， 确保 它 符合 要 求 。 for i in range (32): 
lineStr = fr.readline() 
for j in range(32): 
QD 该 数据 集合 修改 自 “手写 数字 数据 集 的 光学 识别 ”一 文中 的 数据 集合 ,该 文登 载 于 2010 年 10 月 3 日 的 UCI 机 器 学 习 ted 60 hn 
口 志 下 my > 本 V 
资料 库 中 http://archive.ics.uci.edu/ml。 作者 是 土耳其 伊斯坦布尔 海峡 大 学 计算 机 工程 系 的 E. Alpaydin 与 C. Kaynak。 ee 
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将 上 述 代 码 输 入 到 kNN.py 文 件 中 ， 在 Python 命 令 行 中 输入 下 列 命令 测试 img2vector 函 数 5 
然后 与 文本 编辑 器 打开 的 文件 进行 比较 ; 


1 于]j 1 
>>> testVector = kNN. img2vector ('testDigits/0_13.txt ) 
>>> testVector[0,0:31] 


array (lf 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., by 和 
0 et 人 i 人 Lt 0 6 二 3 ey 3 了 
二 0., 6 Us 0.])} 

>>> BC Se ” i ea ee 

OD oe ed D0 a De 0 eg 30 0% 
La .0 和 二 名 0.]) 


2.3.2 ”测试 算法 : 使 用 kK- 近邻 算法 识别 手写 数字 

上 节 我 们 已 经 将 数据 处 理 成 分 类 器 可 以 识别 的 格式 ， ee 
测 分 类 器 的 执行 效果 。 程序 清单 2-6 所 示 的 自 包含 函数 handwritingClassTest () 是 测试 分 | 
的 代码 ， 将 其 写 人 kNN.py 文 件 中 。 在 写 和 这些 代码 之 前 ， 我 们 必须 确保 将 from Ee 
1istdir 写 入 文件 的 起 始 部 分 ， 这 段 代码 的 主要 功能 是 从 os 模块 中 导 人 函数 1istair， 它 可 以 列 


出 给 定 目录 的 文件 名 。 
程序 清单 2-6 ”手写 数字 识别 系统 的 测试 代码 


def handwritingClassTest (): 

hwLabels = {] a | 

trainingFileList = listdir('trainingDigits') 

m = len(trainingFileList) 

trainingMat = zeros((m,1024)) 

for i in range (m) : | 
fileNameStr = trainingFileList [i] 
fileStr = fileNameStr.split('.') [0] 


了 获取 目录 内 容 


2 从 文件 名 解析 分 类 数字 


. classNumstr = int (filestr.split("_') [0]) 
hwLabels .append (classNumStr) 、 a ns | 
trainingMat {i,:] = img2vector ('trainingDigits/%s' % fileNameStr) 


testFileList = listdir('testDigits') 
errorCount = 0.0 
mrest = len(testrFileList) 
for i in range (mTest): 
fileNameStr = testFileList[il] 
filestr = dt 
= int (filestr.split(’_’ 
te ek a 多 fileNameStr) 
classifierResult = classify0 (vectorUnderTest, \ 
trainingMat, hwLabels, 3) 
print "the classifier Came back with: %$d, the real answer 18: $d"\ 
% (classifierResult, classNumSstr) 
if (classifierResult != classNumStr): errorCount += 1.0 
print "\nthe total number of errors is: gd" $ | ee 
print "\nthe total error rate iSs: %f" % (errorCount/float (mTes 


在 程序 清单 2-6 中 , 将 trainingDigits 目 录 中 的 文件 内 容 存储 在 列表 中 人 @， 然 后 可 以 得 到 目录 中 有 
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多 少 文件 ， 并 将 其 存储 在 变量 m 中 。 接 着 ， 代 码 创 建 一 个 m 行 1024 列 的 训练 矩阵 ， 该 矩阵 的 每 行 数 
据 存储 一 个 图 像 。 我 们 可 以 从 文件 名 中 解析 出 分 类 数字 人 @@。 该 目录 下 的 文件 按照 规则 命名 ,如 文件 
9_45.txt 的 分 类 是 9， 它 是 数字 9 的 第 45 个 实例 。 然 后 我 们 可 以 将 类 代码 存储 在 hwrabels 向 量 中, 使 
用 前 面 讨 论 的 img2vector 函 数 载 人 图 像 。 在 下 一 步 中 ， 我 们 对 testDigits 目 录 中 的 文件 执行 相似 的 
操作 ， 不 同 之 处 是 我 们 并 不 将 这 个 目录 下 的 文件 载 人 矩阵 中 ， 而 是 使 用 classify0 () 函数 测试 该 
目录 下 的 每 个 文件 。 由 于 文件 中 的 值 已 经 在 0 和 1 之 间 , 本 节 并 不 需要 使 用 2.2 节 的 autoNorm( ) 函数 。 

在 Python 命令 提示 符 中 输入 JNN. handwritingClassTest ()，, 测试 该 函数 的 输出 结果 。 依 
赖 于 机 器 速度 ， 加 载 数 据 集 可 能 需要 花费 很 长 时 间 ， 然后 函数 开始 依次 测试 每 个 文件 ， 输 出 结果 
如 下 所 示 : 


>>> kNN.handwritingClassTest () 
the classifier came back with: 0, the real answer ig: 0 
the classifier came back with: 0, the real answer is: 0 


the classifier came back with: 7, the real answer is: 
the classifier came back with: 7, the real answer is: 
the classifier came back with: 8, the real answer is: 
the classifier came back with: 8, the real answer is: 
the classifier came back with: 8, the real answer is: 
the classifier came back with: 6, the real answer is: 


Oo 


the classifier came back with: 9, 
the total number of errors is: 11 
the total error rate is: 0.011628 


大 近邻 算法 识别 手写 数字 数据 集 , 错误 率 为 1.2%。 改变 变量 k 的 值 、 修 改 函数 handwriting- 
classTest 随 机 选取 训练 样本 、 改 变 训练 样本 的 数目 ， 都 会 对 大 近邻 算法 的 错误 率 产 生 影响 ， 感 
兴趣 的 话 可 以 改变 这 些 变量 值 ， 观 察 错误 率 的 变化 。 

实际 使 用 这 个 算法 时 , 算法 的 执行 效率 并 不 高 。 因 为 算法 需要 为 每 个 测试 向 量 做 2000 次 距离 
计算 ,每 个 距离 计算 包括 了 1024 个 维度 浮 点 运算 ， 总 计 要 执行 900 次 ， 此 外 ， 我 们 还 需要 为 测试 
向 量 准备 2MB 的 存储 空间 。 是 否 存在 一 种 算法 减少 存储 空间 和 计算 时 间 的 开销 呢 ?k 决 策 树 就 是 
大 近邻 算法 的 优化 版 ， 可 以 节省 大 量 的 计算 开销 。 


2.4 本 章 小 结 


近邻 算法 是 分 类 数据 最 简单 最 有 效 的 算法 ， 本 章 通过 两 个 例子 讲述 了 如 何 使 用 -近邻 算法 
构造 分 类 带 。k- 近 邻 算法 是 基于 实例 的 学 习 ， 使 用 算法 时 我 们 必须 有 接近 实际 数据 的 训练 样本 数 
据 。 庆 近邻 算法 必须 保存 全 部 数据 集 ， 如 果 训 练 数据 集 的 很 大 ,必须 使 用 大 量 的 存储 空间 。 此 外 ， 
由 于 必须 对 数据 集中 的 每 个 数据 计算 距离 值 ， 实 际 使 用 时 可 能 非常 耗 时 。 

大 近邻 算法 的 另 一 个 缺陷 是 它 无 法 给 出 任何 数据 的 基础 结构 信息 ， 因 此 我 们 也 无 法 知晓 平均 
实例 样本 和 典型 实例 样本 具有 什么 特征 。 下 一 章 我 们 将 使 用 概率 测量 方法 处 理 分 类 问题 , 该 算法 
可 以 解决 这 个 问题 。 了 


the real answer is: 9 
































本 章 内 容 

口 决策 树 简介 

口 在 数据 集中 度量 一 致 性 
口 使 用 递归 构造 决策 树 

口 使 用 Matplotlib 绘 制 树 形 图 


你 是 否 玩 过 二 十 个 问题 的 游戏 ， 游 戏 的 规则 很 简单 ， 参 与 游戏 的 一 方 在 脑海 里 想 某 个 事物 ， 
其 他 参与 者 向 他 提问 题 ,只 允许 提 20 个 问题 ,问题 的 答案 也 只 能 用 对 或 错 回答 。 问 问题 的 人 通过 
推断 分 解 ， 逐 步 缩小 待 猜测 事物 的 范围 。 决 策 树 的 工作 原理 与 20 个 问题 类 似 ， 用 户 输入 一 系列 数 
据 ， 然 后 给 出 游戏 的 管 案 。 

我 们 经 常 使 用 决策 树 处 理 分 类 问题 ,近来 的 调查 表明 决策 树 也 是 最 经 常 使 用 的 数据 挖掘 算法 o_ 
它 之 所 以 如 此 流行 ,一 个 很 重要 的 原因 就 是 使 用 者 基本 上 不 用 了 解 机 器 学 习 算 法 , 也 不 用 深究 它 
是 如 何 工作 的 。 

如 果 你 以 前 没有 接触 过 决策 树 ， 完 全 不 用 担心 ， 它 的 概念 非常 简单 。 即 使 不 知道 它 也 可 以 通 
过 简单 的 图 形 了 解 其 工作 原理 ， 图 3-1 所 示 的 流程 图 就 是 一 个 决策 树 ， 正 方形 代表 判断 模 闫 
(decision block )， 椭 圆 形 代表 终止 模块 ( terminating block )， 表 示 已 经 得 出 结论 ， 可 以 终止 运行 。 
从 判断 模块 引出 的 左右 箭头 称 作 分 支 (branch )， 它 可 以 到 达 另 一 个 判断 模块 或 者 终止 模块 。 图 
3-1 构 造 了 一 个 假想 的 邮件 分 类 系统 ， 它 首先 检测 发 送 邮 件 域名 地 址 。 如 果 地 址 为 
myEmployercom， 则 将 其 放 在 分 类 “无 聊 时 需要 阅读 的 邮件 ”中 。 如 果 邮 件 不 是 来 自 这 个 域名 ， 
则 检查 邮件 内 容 里 是 否 包含 单词 曲棍球 ， 如 果 包 含 则 将 邮件 归 类 到 “需要 及 时 处 理 的 朋友 邮件 ”， 
如 果 不 包含 则 将 邮件 归 类 到 “无 需 阅读 的 垃圾 邮件 ”。 

第 2 章 介 绍 的 近邻 算法 可 以 完成 很 多 分 类 任务 ， 但 是 它 最 大 的 缺点 就 是 无 法 给 出 数据 的 内 
在 含义 ， 决 策 树 的 主要 优势 就 在 于 数据 形式 非常 容易 理解 。 

本 章 构 造 的 决策 树 算法 能 够 读 取 数 据 集合 ， 构 建 类 似 于 图 3-1 的 决策 树 。 决 策 树 很 多 任务 都 
是 为 了 数据 中 所 蕴含 的 知识 信息 ,因此 决策 树 可 以 使 用 不 熟悉 的 数据 集合 ,并 从 中 提取 出 一 系列 
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规则 ， 机 器 学 习 算法 最 终 将 使 用 这 些 机 器 从 数据 集中 创造 的 规则 。 专 家 系统 中 经 常 使 用 决策 树 ， 
而 且 决策 树 给 出 结果 往往 可 以 匹敌 在 当前 领域 具有 几 十 年 工作 经 验 的 人 类 专家 。 


发 送 邮件 域名 地 址 为 ; 
myEmployer.com 
包含 单词 “ 曲 棍 
球 ” 的 邮件 
需要 及 时 处 理 的 
期 友 邮 件 


图 3-! 流程 图 形式 的 决策 树 
现在 我 们 已 经 大 致 了 解 了 决策 树 可 以 完成 哪些 任务 , 接 下 来 我 们 将 学 习 如 何 从 一 堆 原始 数据 
中 构造 决策 树 。 首 先 我 们 讨论 构造 决策 树 的 方法 ， 以 及 如 何 编写 构造 树 的 Python 代码 ; 接着 提出 
一 些 度量 算法 成 功率 的 方法 ; 最 后 使 用 递归 建立 分 类 器 ， 并 且 使 用 Matplotlib 绘 制 决策 树 图 。 构 
造 完成 决策 树 分 类 器 之 后 , 我 们 将 输入 一 些 隐形 眼镜 的 处 方 数据 , 并 由 决策 树 分 类 器 预测 需要 的 
镜片 类 型 。 
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无 聊 时 需要 
阅读 的 邮件 






无 需 阅读 的 
垃圾 邮件 






决策 树 
优点 : 计算 复杂 度 不 高 , 输出 结果 易于 理解 ， 对 中 间 值 的 缺失 不 敏感 ， 可 以 处 理 不 相关 特 
征 数据 。 

缺点 ; 可 能 会 产生 过 度 匹 配 问题 。 

适用 数据 类 型 : 数值 型 和 标 称 型 。 


本 节 将 一 步 步 地 构造 决策 树 算法 ， 并 会 涉及 许多 有 趣 的 细节 。 首 先 我 们 讨论 数学 上 如 何 使 用 
信息 论 划分 数据 集 ， 然 后 编写 代码 将 理论 应 用 到 具体 的 数据 集 上 ， 最 后 编写 代码 构建 决策 树 。 

在 构造 决策 树 时 ,我们 需要 解决 的 第 一 个 问题 就 是 ， 当 前 数据 集 上 哪个 特征 在 划分 数据 分 类 
时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ， 划 分 出 最 好 的 结果 , 我 们 必须 评估 每 个 特征 。 完 成 测 
试 之 后 ,原始 数据 集 就 被 划分 为 几 个 数据 子 集 。 这 些 数据 子 集会 分 布 在 第 一 个 决策 点 的 所 有 分 文 
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ed 


上 。 如 果 某 个 分 支 下 的 数据 属于 同一 类 型 , 则 当前 无 需 阅读 的 垃圾 邮件 已 经 正确 地 划分 数据 分 类 
天 进一步 对 所 信和 分 关 。 如 果 数 所 人 内 的 所 不 局 于 同一 关 浊 ， 则 需要 重复 如 分 数 所 了 
站 和 杜 。 如 何 六 法 和 划分 原始 法 相同 | 用 同类 到 
i 数据 集 的 方法 相同 ,直到 所 有 具有 相同 类 型 的 数 

创建 分 支 的 伪 代 码 函 数 createBranch () 如 下 所 示 ， 
检测 数据 集中 的 每 个 子 项 是 否 属于 同一 分 类 ; 
If so return 类 标签 ; 
Else 
寻找 划分 数据 集 的 最 好 特征 
划分 数据 集 
创建 分 支 节点 
for 每 个 划分 的 子 集 
调用 函数 createBranch 并 增加 返回 结果 到 分 支 节点 中 
return 分 支 节 点 


上 面 的 伪 代 码 createBranch 是 一 个 递归 函数 ， 在 倒数 第 二 行 直接 调用 了 它 自己 。 后 而 我 人 
| . 》 SR 只 o / 品 面 我 们 
将 把 上 面 的 伪 代 码 转换 为 Python 代码 ， 这 里 我 们 需要 进一步 了 解 算法 是 如 何 划分 数据 集 的 。 


车 决策 树 的 一 般 流程 

(1) 收集 数据 ;可 以 使 用 任何 方法 。 

(2) 准备 数据 ， 树 构造 算法 只 适用 于 标 称 型 数据 ， 因 此 数值 型 数据 必须 离散 化 。 

(3) 分 析 数 据 ， 可 以 使 用 任何 方法 ， 构 造 树 完成 之 后 ， 我 们 应 该 检查 图 形 是 否 符合 预期 

(4) 训练 算法 ， 构造 树 的 数据 结构 。 

(5) 测试 算法 : 使 用 经 验 树 计算 错误 率 。 

(6) 使 用 算法 ， 此 步骤 可 以 适用 于 任何 监督 学 习 算 > 决策 树 可 上 : 
I 督学 习 算 法 ， 而 使 用 决策 树 可 以 更 好 地 理解 数据 


一 些 决策 树 算法 采用 二 分 法 划分 数据 ,本 书 并 不 采用 这 种 方法 如 果 依 据 某 个 属性 钨 
| 了 o 性 划分 数据 
将 会 产生 4 个 可 能 的 值 ， 我 们 将 把 数据 划分 成 四 块 ， 并 创建 四 个 不 同 的 分 支 。 本 书 将 使 用 ID3 算 法 
ee ， 该 算法 处 理 如 何 划 分 数据 集 ， 何 时 停止 划分 数据 集 ( 进一步 的 信息 可 以 参见 
ttp:Wen.wikipedia.org/wikiID3 algorithm。 每 次 划分 数据 集 时 我 们 只 选取 一 个 特征 属性 如 果 计 
练 集 中 存在 20 个 特征 ， 第 一 次 我 们 选择 哪个 特征 作为 划分 的 参考 属性 呢 ? 
表 3-1 的 数据 包含 5 个 海洋 动物 ， 特 征 包括 ， 不 浮 出 水 面 是 否 可 以 生存 ， 以 及 是 
va . ， : 否 有 上 肢 跨 。 我 
们 可 以 将 这 些 动物 分 成 两 类 ; 鱼 类 和 非 鱼 类 。 现在 我 们 想 要 决定 依据 第 一 个 特征 还 是 第 二 个 特征 
ee 我 们 必须 采用 量化 的 方法 判断 如 何 划 分 数据 。 下 一 小 节 将 详细 
讨论 这 个 中 | 


RE 


3.1 决策 树 的 构造 35 














表 3-1 海洋 生物 数据 
不 浮 出 水 面 是 否 可 以 生存 是 否 有 脚 跨 属于 鱼 类 
1 是 是 是 
2 是 是 是 
3 是 否 否 
4 否 是 否 
5 否 是 否 


3.1.1 ”信息 增益 


划分 数据 集 的 大 原则 是 ， 将 无 序 的 数据 变 得 更 加 有 序 。 我 们 可 以 使 用 多 种 方法 划分 数据 集 ， 
但 是 每 种 方法 都 有 各 自 的 优 缺 点 。 组 织 杂乱 无 章 数据 的 一 种 方法 就 是 使 用 信息 论 度量 信息 ,信息 
论 是 量化 处 理 信息 的 分 支 科 学 。 我 们 可 以 在 划分 数据 之 前 使 用 信息 论 量化 度量 信息 的 内 容 。 
在 划分 数据 集 之 前 之 后 信息 发 生 的 变化 称 为 信息 增益 , 知道 如 何 计算 信息 增益 , 我 们 就 可 以 
计算 每 个 特征 值 划分 数据 集 获 得 的 信息 增益 ， 获 得 信息 增益 最 高 的 特征 就 是 最 好 的 选择 。 
在 可 以 评测 哪 种 数据 划分 方式 是 最 好 的 数据 划分 之 前 , 我 们 必须 学 习 如 何 计算 信息 增益 。 集 
合 信息 的 度量 方式 称 为 香农 炳 或 者 简称 为 烂 ， 这 个 名 字 来 源 于 信息 论 之 父 克 劳 德 ， 香农 。 


Pe Ee 
训 劳 入， 香农 被 人 认为 是 二 十 世纪 最 联 明 的 人 之 一 ， 成 廉 遍 估 斯 通 在 其 2005 征 出 版 的 
《财富 公式 》 一 书 中 是 这 样 描写 克 劳 德 ， 香 农 的 : 
“贝尔 实验 室 和 MIT 有 很 多 人 将 香农 和 爱 因 斯 坦 相提并论 ， 而 其 他 人 则 认为 这 种 对 比 是 不 
公平 的 一 一 对 理 农 是 不 公平 的 。”。 


如 果 看 不 明白 什么 是 信息 增益 ( information gain ) 和 粹 (entropy )， 请 不 要 着 急 一 一 它们 自 
诞生 的 那 一 天 起 ， 就 注定 会 令 世 人 十 分 费解 。 克 劳 德 ， 香农 写 完 信息 论 之 后 , 约翰， 六， 诺 依 
曼 建 议 使 用 “ 炉 ” 这 个 术语 ， 因 为 大 家 都 不 知道 它 是 什么 意思 。 

炳 定义 为 信息 的 期 望 值 ,在 明晰 这 个 概念 之 前 ， 我 们 必须 知道 信息 的 定义 。 如 果 待 分 类 的 事 
务 可 能 划分 在 多 个 分 类 之 中 ， 则 符号 x 的 信息 定义 为 

1(%;) = -log,p(%;) 
其 中 p00) 是 选择 该 分 类 的 概率 。 
为 了 计算 粹 ,我 们 需要 计算 所 有 类 别 所 有 可 能 值 包含 的 信息 期 望 值 ， 通 过 下 面 的 公式 得 到 : 


H=-2, p(x)log,p(%;) 





@ 威廉 ' 庞 德 斯 通 的 《财富 公式 : 击败 赌场 和 华尔街 的 不 为 人 知 的 科学 投注 系统 》( Fortune’s Formtla: The Untold 
Story of the Scientift ic Betting System that Beat the. Casinos and Wall Street ) [Hill and Wang，2005] 第 15 页 。 
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其 中 n 是 分 类 的 数目 。 
下 面 我 们 将 学 习 如 何 使 用 Python 计 算 信息 炉 ， 创 建 名 为 trees.py 的 文件 ， 将 程序 清单 3-1 的 代 
码 内 容 录 入 到 trees.py 文 件 中 ， 此 代码 的 功能 是 计算 给 定数 据 集 的 炳 。 


程序 清单 3-1 计算 给 定数 据 集 的 香农 炳 
from math import log 


def calcShannonBnt (aataSet) : 
numEntties = len(dataSet) 
labelCounts = {} 


for featVec in dataSet: f 
为 所 有 可 能 分 
currentLabel = featVvec{-1] 类 创建 字典 
if currentLabel not in labelCounts.keys () : 村 
labelcounts [currentLabel] = 0 


JabelCounts{currentLabel] += 1 

shannonEnt = 0.0 

for key in labelCounts: 
prob = float (labelCounts [keyl) /numEntries 
shannonEnt -= prob * log (prob,2) 


.9 以 2 为 底 求 对 数 
return shannonEnt 


程序 清单 3-1 的 代码 非常 简单 。 首 先 ， 计算 数据 集中 实例 的 总 数 。 我 们 也 可 以 在 需要 时 再 计 
算 这 个 值 , 但 是 由 于 代码 中 多 次 用 到 这 个 值 ， 为 了 提高 代码 效率 ， 我 们 显 式 地 声明 一 个 变量 保存 
实例 总 数 。 然 后 ,创建 一 个 数据 字典 ， 它 的 键 值 是 最 后 一 列 的 数值 @。 如 果 当 前 键 值 不 存在 ， 则 
扩展 字典 并 将 当前 键 值 加 和 字典。 每 个 键 值 都 记录 了 当前 类 别 出 现 的 次 数 。 最 后 ， 使 用 所 有 类 标 
签 的 发 生 频率 计算 类 别 出 现 的 概率 。 我 们 将 用 这 个 概率 计算 香农 粹 @, 统计 所 有 类 标签 发 生 的 次 
数 。 下 面 我 们 看 看 如 何 使 用 炉 划 分 数据 集 。 | 

在 trees.py 文 件 中 ， 我 们 可 以 利用 createDataset () 函数 得 到 表 3-1 所 示 的 简单 鱼 鉴定 数据 


集 ， 你 可 以 输入 自己 的 createDataSet () 函数 : 


def createDataSet () : 
dataSet = [[i, 1, 'yes'], 

[1, 1, 'yes'}], 

{1, 0, 'no'], 

[0, 1 no']， 

[0, 1i1, 'no']] 
1abels = ['no surfacing','flippers'] 
return dataSset, labels 
在 Python 命 令 提 示 符 下 输入 下 列 命 令 : 
>>> reload (trees.py) 有 
>>> myDat, labels=trees.createDataSset () 
>>> myDat . 
[[1i, 1, ‘yes'], [1, 1, 'yes'], [1, 0, ino']}, [0, 1, no'], [0, 1, 'n6']] 
>>> trees.calcShannonEnt (myDat) 
0.97095059445466858 


炳 越 高 ， 则 混合 的 数据 也 越 多 , 我 们 可 以 在 数据 集中 添加 更 多 的 分 类 , 观察 闹 是 如 何 变化 的 。 
这 里 我 们 增加 第 三 个 名 为 maybe 的 分 类 ， 测 试 焙 的 变化 ; 
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>>> myDat [0] [-1]='maybe' 

>>> myDat 

[[1, 1, 'maybe'], [1, 1, 'yes'], {1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.calcShannonEnt (myDat) 

1.3709505944546687 


得 到 焙 之 后 , 我 们 就 可 以 按照 获取 最 大 信息 增益 的 方法 划分 数据 集 , 下 一 节 我 们 将 具体 学 习 
如 何 划分 数据 集 以 及 如 何 度量 信息 增益 。 

另 一 个 度量 集合 无 序 程度 的 方法 是 基尼 不 纯度 ”( Gini impurity )， 简 单 地 说 就 是 从 一 个 数据 
集中 随机 选取 子 项 , 度量 其 被 错误 分 类 到 其 他 分 组 里 的 概率 。 本 书 不 采用 基尼 不 纯度 方法 , 这 里 
就 不 再 做 进一步 的 介绍 。 下 面 我 们 将 学 习 如 何 划分 数据 集 ， 并 创建 决策 树 。 


3.1.2 ”划分 数据 集 


上 节 我 们 学 习 了 如 何 度 量 数据 集 的 无 序 程度 , 分 类 算法 除了 需要 测量 信息 米 , 还 需要 划分 数 
据 集 , 度量 花费 数据 集 的 炉 ， 以 便 判 断 当前 是 否 正确 地 划分 了 数据 集 。 我 们 将 对 每 个 特征 划分 数 
据 集 的 结果 计算 一 次 信息 箭 , 然后 判断 按照 哪个 特征 划分 数据 集 是 最 好 的 划分 方式 。 想 象 一 个 分 
布 在 二 维 空间 的 数据 散 点 图 ， 需 要 在 数据 之 间 划 条 线 ， 将 它们 分 成 两 部 分 ， 我 们 应 该 按照 x 轴 还 
是 y 轴 划 线 呢 ? 答案 就 是 本 节 讲 述 的 内 容 。 

要 划分 数据 集 ， 打 开 文 本 编辑 器 ， 在 trees.py 文 件 中 输入 下 列 的 代码 ; 


程序 清单 3-2 ”按照 给 定 特征 划分 数据 集 


def splitDataSet (dataset, axis, value): 
retDataset = [} 
for featVec in dataset: 


6 创建 新 的 list 对 象 
if featVec[axis]l == Value: 


reducedFeatVec = featVec[:axis] 

reducedFeatVec.extend (featVec [axis+l:]) 有 抽取 
retDataSet .append (reducedFeatVec) 

return retDatasSet 


程序 清单 3-2 的 代码 使 用 了 三 个 输入 参数 ， 待 划分 的 数据 集 、 划 分 数据 集 的 特征 、 特 征 的 返 
回 值 。 需 要 注意 的 是 ，Python 语 言 不 用 考虑 内 存 分 配 问题 。Python 语 言 在 函数 中 传递 的 是 列表 的 
引用 ,在 函数 内 部 对 列表 对 象 的 修改 ,将 会 影响 该 列表 对 象 的 整个 生存 周期 。 为 了 消除 这 个 不 民 
影响 , 我们 需要 在 函数 的 开始 声明 一 个 新 列表 对 象 。 因 为 该 函数 代码 在 同一 数据 集 上 被 调用 多 次 ， 
为 了 不 修改 原始 数据 集 , 创建 一 个 新 的 列表 对 象 @。 数 据 集 这 个 列表 中 的 各 个 元 素 也 是 列表 , 我 
们 要 遍历 数据 集中 的 每 个 元 素 ， 一 旦 发 现 符合 要 求 的 值 ， 则 将 其 添加 到 新 创建 的 列表 中 。 在 if 
语句 中 , 程序 将 符合 特征 的 数据 抽取 出 来 @。 后 面 讲述 得 更 简单 ， 这 里 我 们 可 以 这 样 理解 这 段 代 
码 ; 当 我 们 按照 某 个 特征 划分 数据 集 时 ， 就 需要 将 所 有 符合 要 求 的 元 素 抽取 出 来 。 代 码 中 使 用 了 
Python 语言 列表 类 型 自 带 的 extenda() 和 appena() 方 法 。 这 两 个 方法 功能 类 似 , 但 是 在 处 理 多 个 
列表 时 ， 这 两 个 方法 的 处 理 结果 是 完全 不 同 的 。 


@ 要 了 解 更 多 信息 ， 请 参考 Pan-Ning Tan, Vipin Kumar and Michael Steinbach , Introduction to Data Mining. Pearson 
Education (Addison-Wesley 2005), 158. 
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假定 存在 两 个 列表 ，a 和 b: 
>>> a=[1,2,3] 

>>> b=[4,5,6] 

>>> a.append (b) 

>>> a 

[1, 2, 3, [4, 5, 6€]] 


如 果 执 行 a.appena (b) ， 则 列表 得 到 了 第 四 个 元 素 ， 而 且 第 四 个 元 素 也 是 一 个 列表 。 然 而 
如 果 使 用 extend 方 法 : . 


>>> a={1,2,3] 

>>> a.extend (b) 
>>> a 

[1, 2, 3, 4, 5, 61 


则 得 到 一 个 包含 a 和 b 所 有 元 素 的 列表 。 
”我 们 可 以 在 前 面 的 简单 样本 数据 上 测试 函数 spl1itDatasSet () 。 首 先 还 是 要 将 程序 清单 3-2 
的 代码 增加 到 trees.py 文 件 中 ， 然 后 在 Python 命令 提示 符 内 输入 下 述 命令 ; 

>>> reload (trees) 


<module 'trees' from 'trees.pyc'> 
>>> myDat, labelg=trees.createDataSet () 


>>> myDat 

[[1, 1, 'yes']}, [1i, 1, 'yes'], [1i, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.splitDataSet (myDat, 0,1) 

[[1, ‘yes'], {1, 'yes'], [0, 'no']] 

>>> trees.splitDataset (myDat,o0,0) 

[[1, 'no'], [1, 'no']] 


接 下 来 我 们 将 遍历 整个 数据 集 , 循环 计算 香农 炉 和 splitDataset () 函数 ,找到 最 好 的 特征 
划分 方式 。 焙 计算 将 会 告诉 我 们 如 何 划分 数据 集 是 最 好 的 数据 组 织 方式 。 

打开 文本 编辑 器 ， 在 trees.py 文 件 中 输入 下 面 的 程序 代码 。 
程序 清单 3-3 ”选择 最 好 的 数据 集 划分 方式 


def chooseBestFeatureToSplit (dataSet): 


numFeatures = len(dataSset[0]) - 1 
baseEntropy = calcShannonEnt (dataSet) 
bestinfoGain = 0.0; bestFeature = -1 


for i in range (numFeatures): a 
featList = [example[i] for example in dataSet] | 司 凶 是 用 一 的 分 类 标签 列 表 
uniqueVals = Set (featList) 
newEntropy = 0.0 
for value in uniqueVals: 
SubDataSet = splitDataSet (dataSet, i, value) 计算 每 种 划分 方式 
prob = len{subDataSet) /float (len (dataSet)) 的 信息 炳 
newEntropy += prob * calcshannonEnt (SubDataSet) 
infoGain = baseEntropy - newEntropy 
if (infoGain > bestInfoGain): 
bestInfoGain = infoGain 
bestFeature = i 
return bestFeature 


程序 清单 3-3 给 出 了 函数 chooseBestFeatureToSplit () 的 完整 代码 ， 该 函数 实现 选取 特 


| 月 计算 最 好 的 信息 增益 
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征 ， 划 分 数据 集 ， 计 算得 出 最 好 的 划分 数据 集 的 特征 。 函 数 chooseBestFeatureToSplit () 使 
用 了 程序 清单 3-1 和 程序 清单 3-2 中 的 函数 。 在 函数 中 调用 的 数据 需要 满足 一 定 的 要 求 ， 第 一 个 要 
求 是 ， 数据 必须 是 一 种 由 列表 元 素 组 成 的 列表 ， 而 且 所 有 的 列表 元 素 都 要 具有 相同 的 数据 长 度 ; 
第 二 个 要 求 是 , 数据 的 最 后 一 列 或 者 每 个 实例 的 最 后 一 个 元 素 是 当前 实例 的 类 别 标签 。 数 据 集 一 
旦 满足 上 述 要 求 , 我 们 就 可 以 在 函数 的 第 一 行 判 定 当前 数据 集 包含 多 少 特征 属性 。 我们 无 需 限定 
list 中 的 数据 类 型 ， 它 们 既 可 以 是 数字 也 可 以 是 字符 串 ， 并 不 影响 实际 计算 。 

在 开始 划分 数据 集 之 前 ,程序 清单 3-3 的 第 3 行 代码 计 算 了 整个 数据 集 的 原始 香农 米 ， 我 们 保 
存 最 初 的 无 序 度量 值 ， 用 于 与 划分 完 之 后 的 数据 集 计算 的 稍 值 进行 比较 。 第 1 个 for 循 环 记 历数 
据 集中 的 所 有 特征 。 使 用 列表 推导 ( List Comprehension ) 来 创建 新 的 列表 ， 将 数据 集中 所 有 第 i 
个 特征 值 或 者 所 有 可 能 存在 的 值 写 入 这 个 新 list 中 各 。 然后 使 用 Python 语言 原生 的 集合 (set ) 数据 
类 型 。 集 合 数据 类 型 与 列表 类 型 相似 , 不 同 之 处 仅 在 于 集合 类 型 中 的 每 个 值 互 不 相同 。 从 列表 中 
创建 集合 是 Python 语言 得 到 列表 中 唯一 元 素 值 的 最 快 方法 。 

遍历 当前 特征 中 的 所 有 唯一 属性 值 ， 对 每 个 特征 划分 一 次 数据 集 @@， 然 后 计算 数据 集 的 新 灶 
值 ， 并 对 所 有 唯一 特征 值得 到 的 业 求 和 。 信 息 增 益 是 箭 的 减少 或 者 是 数据 无 序 度 的 减少 ,大 家 肯 
定 对 于 将 炉 用 于 度量 数据 无 序 度 的 减少 更 容易 理解 。 最 后 ， 比 较 所 有 特征 中 的 信息 增益 , 返回 最 
好 特征 划分 的 索引 值 全 。 

现在 我 们 可 以 测试 上 面 代码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-3 的 内 容 输 入 到 文件 trees.py 
中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 ， 

>>> reload (trees) 

<module 'trees' from 'trees.py'> 

>>> myDat, labels=trees.createDataset () 

>>> treeg.chooseBestFeatureToSplit (myDat) 

0 


>>> myDat 
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, ‘'no']}, [0, 1, 'no']}, [0, 1, 'no']] 


代码 运行 结果 告诉 我 们 ， 第 0 个 特征 是 最 好 的 用 于 划分 数据 集 的 特征 。 结 果 是 否 正确 呢 ? 这 个 
结果 又 有 什么 实际 意义 呢 ? 数据 集中 的 数据 来 源 于 表 3-1, 让 我 们 回头 再 看 一 下 表 1-1 或 者 变量 mypat 
中 的 数据 。 如 果 我 们 按照 第 一 个 特征 属性 划分 数据 ， 也 就 是 说 第 一 个 特征 是 1 的 放 在 一 个 组 ， 第 一 
个 特征 是 0 的 放 在 另 一 个 组 ， 数 据 一 致 性 如 何 ? 按照 上 述 的 方法 划分 数据 集 ， 第 一 个 特征 为 1 的 海洋 
生物 分 组 将 有 两 个 属于 鱼 类 ， 一 个 属于 非 鱼 类 ; 另 一 个 分 组 则 全 部 属于 非 鱼 类 。 如 果 按 照 第 二 个 特 
征 分 组 ， 结 果 又 是 怎么 样 呢 ? 第 一 个 海洋 动物 分 组 将 有 两 个 属于 鱼 类 ， 两 个 属于 非 鱼 类 ; 另 一 个 分 
组 则 只 有 一 个 非 鱼 类 。 如果 不 相信 目测 结果 , 读者 可 以 使 用 程序 清单 3-1 的 calcshannonEntropy () 
函数 测试 不 同 特征 分 组 的 输出 结果 。 

本 节 我 们 学 习 了 如 何 度量 数据 集 的 信息 焙 , 如 何 有 效 地 划分 数据 集 , 下 一 节 我 们 将 介绍 如 何 
将 这 些 函 数 功 能 放 在 一 起 ， 构 建 决策 树 。 


3.1.3 ”递归 构建 决策 树 
目前 我 们 已 经 学 习 了 从 数据 集 构造 决策 树 算法 所 需要 的 子 功能 模块 ,其 工作 原理 如 下 : 得 到 
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原始 数据 集 , 然后 基于 最 好 的 属性 值 划分 数据 集 ， 由 于 特征 值 可 能 多 于 两 个 , 因此 可 能 存在 大 于 
两 个 分 支 的 数据 集 划分 。 第 一 次 划分 之 后 ,数据 将 被 向 下 传递 到 树 分 支 的 下 一 个 节点 ,在 这 个 节 
点 上 ， 我 们 可 以 再 次 划分 数据 。 因 此 我 们 可 以 采用 递归 的 原则 处 理 数据 集 。 

递归 结束 的 条 件 是 : 程序 遍历 完 所 有 划分 数据 集 的 属性 ， 或 者 每 个 分 支 下 的 所 有 实例 都 具有 
相同 的 分 类 。 如 果 所 有 实例 具有 相同 的 分 类 ， 则 得 到 一 个 叶子 节点 或 者 终止 块 。 任 何 到 达 时 子 节 
点 的 数据 必然 属于 叶子 节点 的 分 类 ， 参 见 图 3-2 所 示 。 


No surfaclng Elippors? Fish? 
| Yes Yes Yes 
2. Yes Yes Yes 
3. Yes No No 
4， No Yes No 
5 No Yes No 
Elippers? Eish? 
1 Yes Yes 
2 Yes Yes 
3 No No 






全 
< 
也 
3 


Fllppers? 


图 3-2 ”划分 数据 集 时 的 数据 路 径 


第 一 个 结束 条 件 使 得 算法 可 以 终止 ， 我 们 甚至 可 以 设置 算法 可 以 划分 的 最 大 分 组 数目 。 后 续 
章节 还 会 介绍 其 他 决策 树 算法 ， 如 C4.5 和 CART， 这 些 算法 在 运行 时 并 不 总 是 在 每 次 划分 分 组 时 
都 会 消耗 特征 。 由 于 特征 数目 并 不 是 在 每 次 划分 数据 分 组 时 都 减少 , 因 此 这 些 算法 在 实际 使 用 时 
可 能 引起 一 定 的 问题 。 目 前 我 们 并 不 需要 考虑 这 个 问题 ， 只 需要 在 算法 开始 运行 前 计算 列 的 数目 ， 
查看 算法 是 否 使 用 了 所 有 属性 即 可 。 如 果 数据 集 已 经 处 理 了 所 有 属性 ， 但 是 类 标签 依然 不 是 唯一 


的 ， 此 时 我 们 需要 决定 如 何 定义 该 叶子 节点 ,在 这 种 情况 下 ， 我 们 通常 会 采用 多 数 
定 该 叶子 节点 的 分 类 。 帅 表决 的 方法 决 


打开 文本 编辑 器 ， 在 增加 下 面 的 函数 之 前 ， 在 trees.py 文 件 项 部 增加 一 行 代码 ，import 
operator， 然 后 添加 下 面 的 代码 到 trees.py 文 件 中 ， 
def majorityCnt (classList): 
classCount={} 
for vote in classList: 
if vote not in classCount .keys (): classCount [vote] = 0 
classCount [vote} += 1 
sortedClassCount = Sorted (classCount .iteritems (), 
key=operator.itemgetter (1), reverse=True)}) 
return sortedClassCount [0] [0] 


本 
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上 面 的 代码 与 第 2 章 classify0 部 分 的 投票 表决 代码 非常 类 似 ,该 函数 使 用 分 类 名 称 的 列表 ， 
然后 创建 键 值 为 classList 中 唯一 值 的 数据 字典 ， 字 典 对 象 存储 了 classList 中 每 个 类 标签 出 
现 的 频率 ， 最 后 利用 operator 操 作 键 值 排序 字典 ， 并 返回 出 现 次 数 最 多 的 分 类 名 称 。 

在 文本 编辑 器 中 打开 trees.py 文 件 ， 添 加 下 面 的 程序 代码 。 


程序 清单 3-4 ”创建 树 的 函数 代码 


def createTree (dataSet, labels): 


classList = [example[-1] for example in dataSet] 类 别 完全 相同 则 

if classList.count (classList[0]) == len{(classList): 加 停止 继续 划分 
return classList[0] 

if len(dataset{0]) == 1: 遍历 完 所 有 特征 时 返 
return majorityCnt (classList) 回 出 现 次 数 最 多 的 

bestFeat = chooseBestFeatureToSplit (dataSet) 

bestFeatLabel = labels [bestFeat] 

myTree = {bestFeatLabel:{)}} 

del (labels [bestFeat]) 得 到 列表 包含 

featValues = [example [bestFeat] for example in dataSet] 的 所 有 属性 值 

uniqueVals = set (featValueSs) 


for value in uniqueVals: 
subLabels = labels{:] 
myTree [bestFeatLabel] [value] = createTree (splitDataSet\ 
(dataSet, bestFeat, value),subLabels) 
return myTree 


程序 清单 3-4 的 代码 使 用 两 个 输入 参数 : 数据 集 和 标签 列表 。 标 签 列表 包含 了 数据 集中 所 有 
特征 的 标签 , 算法 本 身 并 不 需要 这 个 变量 , 但 是 为 了 给 出 数据 明确 的 含义 ,我 们 将 它 作 为 一 个 输 
人 参数 提供 。 此 外 ， 前 面 提 到 的 对 数据 集 的 要 求 这 里 依然 需要 满足 。 上 述 代码 首先 创建 了 名 为 
classList 的 列表 变量 , 其 中 包含 了 数据 集 的 所 有 类 标签 。 递 归 函 数 的 第 一 个 停止 条 件 是 所 有 的 
类 标 黎 完 全 相同 ， 则 直接 返回 该 类 标签 @。 递 归 函 数 的 第 二 个 停止 条 件 是 使 用 完了 所 有 特征 , 仍 
然 不 能 将 数据 集 划 分 成 仅 包 含 唯一 类 别 的 分 组 @@。 由 于 第 二 个 条 件 无 法 简单 地 返回 唯一 的 类 标 
签 ， 这 里 使 用 程序 清单 3-3 的 函数 挑选 出 现 次 数 最 多 的 类 别 作为 返回 值 。 

下 一 步 程序 开始 创建 树 ， 这 里 使 用 Python 语 言 的 字典 类 型 存储 树 的 信息 ， 当 然 也 可 以 声明 特 
殊 的 数据 类 型 存储 树 ， 但 是 这 里 完全 没有 必要 。 字 典 变 量 mwyTree 存 储 了 树 的 所 有 信息 ， 这 对 于 
其 后 绘制 树 形 图 非常 重要 。 当 前 数据 集 选取 的 最 好 特征 存储 在 变量 bestFeat 中 ， 得 到 列表 包含 
的 所 有 属性 值 人 @。 这 部 分 代码 与 程序 清单 3-3 中 的 部 分 代码 类 似 ， 这 里 就 不 再 进一步 解释 了 。 

最 后 代码 遍历 当前 选择 特征 包含 的 所 有 属性 值 ， 在 每 个 数据 集 划 分 上 递归 调用 函数 
createTree() ， 得 到 的 返回 值 将 被 插入 到 字典 变量 mymree 中 ， 因 此 函数 终止 执行 时 ， 字 典 中 将 
会 髓 套 很 多 代表 叶子 节点 信息 的 字典 数据 。 在 解释 这 个 峰 套 数据 之 前 , 我 们 先 看 一 下 循环 的 第 一 行 
subLabels = labels[:]， 这 行 代码 复制 了 类 标签 ， 并 将 其 存储 在 新 列表 变量 subLabels 中 。 之 
所 以 这 样 做 ， 是 因为 在 Python 语言 中 函数 参数 是 列表 类 型 时 ， 参 数 是 按照 引用 方式 传递 的 。 为 了 保 
证 每 次 调用 函数 createmree () 时 不 改变 原始 列表 的 内 容 ， 使 用 新 变量 subLabels 代 替 原 始 列表 。 

现在 我 们 可 以 测试 上 面 代码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-4 的 内 容 输 入 到 文件 trees.py 
中 ， 然 后 在 Python 命 令 提示 符 下 输入 下 列 命令 ， 








42 第 3 章 决策 树 





>>> reload (trees) 

<module 'trees' from 'trees.pyc'> 

>>> myDat, labels=trees.createDataSset () 

>>> myTree = trees.createTree (myDat, labels) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'})}}} 


变量 myTree 包 含 了 很 多 代表 树 结构 信息 的 嵌 套 字典 ， 从 左边 开始 ， 第 一 个 关键 字 no 
surfacing 是 第 一 个 划分 数据 集 的 特征 名 称 , 该 关键 字 的 值 也 是 另 一 个 数据 字典 。 第 二 个 关键 字 
是 no surfacing 特 征 划分 的 数据 集 ， 这 些 关键 字 的 值 是 no surfacing 节 点 的 子 节点 。 这 些 值 
可 能 是 类 标签 ， 也 可 能 是 另 一 个 数据 字典 。 如 果 值 是 类 标签 ， 则 该 子 节点 是 叶子 节点 ; 如 果 值 是 
另 一 个 数据 字典 ， 则 子 节点 是 一 个 判断 节点 ， 这 种 格式 结构 不 断 重复 就 构成 了 整 棵 树 。 本 节 的 例 
子 中 ， 这 棵 树 包 含 了 3 个 时 子 节点 以 及 2 个 判断 节点 。 

本 节 讲 述 了 如 何 正 确 地 构造 树 ， 下 一 节 将 介绍 如 何 绘制 图 形 , 方便 我 们 正确 理解 数据 信息 的 
内 在 含义 。 


3.2 在 Python 中 使 用 Matplotlib 注解 绘制 树 形 图 


上 节 我 们 已 经 学 习 了 如 何 从 数据 集中 创建 树 , 然而 字典 的 表示 形式 非常 不 易于 理解 , 而 且 直 
接 绘制 图 形 也 比较 困难 。 本 节 我 们 将 使 用 Matplotlib 库 创建 树 形 图 。 决 策 树 的 主要 优点 就 是 直观 
易于 理解 ， 如 果 不 能 将 其 直观 地 显示 出 来 ， 就 无 法 发 挥 其 优势 。 虽 然 前 面 章节 我 们 使 用 的 图 形 库 
已 经 非常 强大 ,但 是 Python 并 没有 提供 绘制 树 的 工具 ， 因 此 我 们 必须 自己 绘制 树 形 图 。 本 节 我 们 
将 学 习 如 何 编写 代码 绘制 如 图 3-3 所 示 的 决策 树 。 





图 3-3 ”决策 树 的 范例 
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3.2.1 Matplotlib 注解 


Matplotlib 提 供 了 一 个 注解 工具 annotations， 非 常 有 用 ， 它 可 以 在 数据 图 形 上 添加 文本 注 
释 。 注 解 通常 用 于 解释 数据 的 内 容 。 由 于 数据 上 面 直接 存在 文本 描述 非常 丑陋 , 因此 工具 内 同 支 
持 带 箭头 的 划 线 工具 ， 使 得 我 们 可 以 在 其 他 恰当 的 地 方 指向 数据 位 置 ， 并 在 此 处 添加 描述 信息 ， 
解释 数据 内 容 。 如 图 3-4 所 示 , 在 坐标 (0.2, 0.1) 的 位 置 有 一 个 点 ,我们 将 对 该 点 的 描述 信息 放 在 (0.35， 
0.3) 的 位 置 ， 并 用 箭头 指向 数据 点 (0.2, 0.1)。 


这 是 我 的 文本 
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图 3-4 ”Matplotlib 注 解 示例 


| “绘制 还 是 图 形 化 : | 

为 什 乏 权 朋 “绘制 ”( plot )? i 
“图 形 化 ”( graph ) ? 这 里 存在 一 些 语言 上 的 差别 ， 英 语 单词 graph 在 某 些 学 科 中 具有 特定 的 含 
义 ， 如 在 应 用 数学 中 ,一 系列 由 边 连接 在 一 起 的 对 象 或 者 节点 称 为 图 。 节 点 的 任意 联系 都 可 以 
通过 边 来 连接 。 在 计算 机 科学 中 ,图 是 一 种 数据 结构 ， 用 于 表示 数学 上 的 概念 。 好 在 汉语 并 不 
存在 这 些 混淆 的 概念 ， 这 里 就 统一 使 用 绘制 树 形 图 。 


本 书 将 使 用 Matplotlib 的 注解 功 能 绘制 树 形 图 ， 它 可 以 对 文字 着 色 并 提供 多 种 形状 以 供 选择 ， 
而 且 我 们 还 可 以 反 转 箭头 ， 将 它 指向 文本 框 而 不 是 数据 点 。 打 开 文 本 编辑 器 ， 创 建 名 为 
treePlotterpy 的 新 文件 ， 然 后 输入 下 面 的 程序 代码 。 


程序 清单 3-5 使 用 文本 注解 绘制 树 节点 


import matplotlib.pyplot as plt 





decisionNode = dict (boxstyle="sawtooth", fc='"0.8") 
leafNode = dict (boxstyle='"round4", fc="0.8") 
arrow_args = dict(arrowstyle="<-") 


def plotNode (nodeTxt, centerpt, parentPpt, nodeType): 绘制 带 箭头 的 注解 
CreatePlot .axl.annotate (nodeTxt, xy= =parent Pts 
xycoords='axes fraction' 


2 
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xytext=centerpt, textcoords='axes fraction', 
va="center", ha="center', bbox=nodeType, arrowprops=arrow args) 


def createPlot(): 
fig = pilt,.figure(1, facecolor='white'!) 
fig.c1f() 
createplot.axli = plt.subplot (111, frameon=False) 
plotNode('a decision node', {0.5, 0.1), (0.1, 0.5)}, decisionNode) 
plotNode('a leaf node', (0.8, 0.1), {0.3, 0.8), leafNode) 
plt. show() 


这 是 第 一 个 版 本 的 createPlot () 函数 ， 与 例子 文件 中 的 createPlot () 函数 有 些 不 同 ， 随 
着 内 容 的 深入 ,我们 将 逐步 添加 缺失 的 代码 。 代 码 定 义 了 树 节点 格式 的 常量 @。 然 后 定义 
”plotNode() 函数 执行 了 实际 的 绘图 功能 ， 该 函数 需要 一 个 绘图 区 ， 该 区 域 由 全 局 变量 
createPlot.ax1 定 义 。Python 语 言 中 所 有 的 变量 默认 都 是 全 局 有 效 的 ， 只 要 我 们 清楚 知道 当前 
代码 的 主要 功能 , 并 不 会 引 人 太 大 的 麻烦 。 最 后 定义 createPlot () 函数 , 它 是 这 段 代 码 的 核心 。 
createPlot () 函数 首先 创建 了 一 个 新 图 形 并 清空 绘图 区 ,然后 在 绘图 区 上 绘制 两 个 代表 不 同类 
型 的 树 节点 ， 后 面 我 们 将 用 这 两 个 节点 绘制 树 形 图 。 
为 了 测试 上 面 代 码 的 实际 输出 结果 ， 打 开 Python 命令 提示 符 ， 导 和 人 treePlottez 模 块 ， 


>>> import treeplotter 
>>> treePplotter.createplot () 


程序 的 输出 结果 如 图 3-5 所 示 ,我 们 也 可 以 改变 函数 plotNode ()@,， 观察 图 中 x、y 位 置 如 何 
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图 3-5 ”函数 plotNode 的 例子 
现在 我 们 已 经 掌握 了 如 何 绘制 树 节点 ， 下 面 将 学 习 如 何 绘制 整 棵 树 。 
3.2.2 ”构造 注解 树 


绘制 一 棵 完整 的 树 需要 一 些 技巧 。 我 们 虽然 有 x、) 上 坐标 ， 但 是 如 何 放置 所 有 的 树 节点 却 是 个 问 
题 。 我 们 必须 知道 有 多 少 个 叶 节 点 ， 以 便 可 以 正确 确定 x 轴 的 长 度 ; 我 们 还 需要 知道 树 有 多 少 层 ， 
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以 便 可 以 正确 确定 y 轴 的 高 度 。 这 里 我 们 定义 两 个 新 浮 数 getNumLeafs () 和 getTreeDepth()， 来 
获取 叶 节 点 的 数目 和 树 的 层 数 ， 参 见 程序 清单 3-6， 并 将 这 两 个 函数 添加 到 文件 teePlotterpy 中 。 


程序 清单 3-6 ”获取 叶 节 点 的 数目 和 树 的 层 数 


def getNumLeafs (myTree): 
numLeafs = 0 
firstStr = myTree.keys() [0] 
secondDict = myTree [firststr] 
for key in secondDict .keys(): 





mt” 2 


if type(secondDict[key]). name =='dict': 测试 节点 的 数据 
numLeafs += getNumLeafs (secondDict [key]) 类 型 是 否 为 字典 
else: numLeafs +=1 


return numLeafs 


def getTreeDepth (myTree): 
maxDepth = 0 
firstStr = myTree.keys{) [0] 
secondDict = myTree [firstSstr] 
for key in secondDict ,keys() ; 


if type(secondDict [key]). name =='dict';: 
thisDepth = 1 + getTreeDepth (secondDict [key]) 
else: thisDepth = 1 


if thisDepth > maxDepth: maxDepth = thisDepth 
return maxDepth 


上 述 程 序 中 的 两 个 函数 具有 相同 的 结构 , 后 面 我 们 也 将 使 用 到 这 两 个 函数 。 这 里 使 用 的 数据 
结构 说 明了 如 何在 Python 字典 类 型 中 存储 树 信息 。 第 一 个 关键 字 是 第 一 次 划分 数据 集 的 类 别 标 
签 ， 附 带 的 数值 表示 子 节 点 的 取 值 。 从 第 一 个 关键 字 出 发 ， 我 们 可 以 遍历 整 棵 树 的 所 有 子 节点 。 
使 用 Python 提供 的 type () 函数 可 以 判断 子 节点 是 否 为 字典 类 型 @。 如 果子 节点 是 字典 类 型 ， 则 
该 节点 也 是 一 个 判断 节点 ， 需 要 递归 调用 getNumLeafs () 函数 。getNumLeafs () 函数 遍历 整 棵 
树 ， 累 计 叶 子 节点 的 个 数 ， 并 返回 该 数值 。 第 2 个 函数 getTreeDpeptph () 计算 遍历 过 程 中 遇 到 判 
斯 节点 的 个 数 。 该 函数 的 终止 条 件 是 叶子 节点 ， 一 旦 到 达 叶 子 节点 ， 则 从 递归 调用 中 返回 ， 并 将 
计算 树 深度 的 变量 加 一 。 为 了 节省 大 家 的 时 间 ， 函 数 *etrieveTree 输 出 预先 存储 的 树 信息 ， 避 
免 了 每 次 测试 代码 时 都 要 从 数据 中 创建 树 的 麻烦 。 

添加 下 面 的 代码 到 文件 teePlotterpy 中 


def retrieveTree (i): 
listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: 'no', 1: 'yes'}}}} 
{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: {'head': {0:; 'no', 1: 'yes'}}, 1: 'no'})}}} 
] 
return listOfTrees [il 


保存 文件 treePlotter.py， 在 Python 命 令 提 示 符 下 输入 下 列 命 令 : 
>>> reload (treepPlotter) 
<module 'treePlotter' from 'treePlotter.py'> 
>>> treePlotter.retrieveTree (1) 
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{'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: ‘no', 1:; 
'yes'}}, 1: 'no'}}}} 

>>> myTree = treeplotter.retrieveTree (0) 

>>> treePlotter.getNumLeafs (myTree) 

3 

>>> treePlotter.getTreeDepth (myTree) 

2 


函数 retrieveTree () 主要 用 于 测试 , 返回 预定 义 的 树 结构 。 上 述 命令 中 调用 getNumLeafs () 
函数 返回 值 为 3, 等 于 树 0 的 叶子 节点 数 ; 调用 getTreeDepths () 函数 也 能 够 正确 返回 树 的 层 数 。 

现在 我 们 可 以 将 前 面 学 到 的 方法 组 合 在 一 起 , 绘制 一 棵 完整 的 树 。 最 终 的 结果 如 图 3-6 所 示 ， 
但 是 没有 x 和 y 轴 标签 。 


1.0r 


0.8 - 


0.6 - 


0.4 - 


0.2 - 





0.0%0 02 04 0.6 os Li0 
图 3-6 简单 数据 集 绘制 的 树 形 图 


打开 文本 编辑 器 ， 将 程序 清单 3-7 的 内 容 添加 到 treePlotter.py 文 件 中 。 注 意 ， 前 文 已 经 在 文件 
中 定义 了 函数 createPlot () ， 此 处 我 们 需要 更 新 这 部 分 代码 。 


程序 清单 3-7 ”plotTree 函 数 
def plotMidText (cntrpt, parentPt, txtString): Se 
xMidG = (parentPt [0] -cntrpt [0])/2.0 + cntrpt{0] 在 父子 节点 间 填充 文本 信息 
yMid = (ParentPt [1] -cntrpt [1])/2.0 + cntrPt [1] 
createplot .axl.text (xMid, yMid, txtSstring) 


def plotTree (myTree, parentpt, nodeTxt): 
numLeafs = getNumLeafs (myTree) 下 计算 宽 与 高 
depth = getTreeDepth (myTree) 
firstStr = myTree.keys() [0] 
cntrpt = (plotTree.xOff + (1.0 + float (numLeafs))/2.0/plotTree.totalW,\ 
plotTree .yOff£) 





3.2 在 Python 下 便衣 Matplotlib 注解 给 绘制 树 形 图 。 47 








plotMidText (cntrPt, parentPt, nodeTxt) 
plotNode (firstSstr, cntrpt, parentPpt, decisionNode) “8 标记 子 节点 属性 值 
secondDict =.myTree [firstStr] 
plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD 月 ， 减少 y 偏 移 
for key in secondDict .keys1() : 

if type (SecondDict [key]). name =='dict': 

plotTree (secondDict [key] ,cntrpt, str (key) ) 
else: 


plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW 
plotNode (secondDict [key]}, (plotTree.xOff, plotTree.yoff), 
cntrpt, leafNode) 
plotMidText ( (plotTree.xOff, plotTree.yOff), cntrpt, str (key) ) 
plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD 


def createPlot (inTree): 
fig = plt.figure(1, facecolor='white') 
fig,clf() 
axprops = dict (xticks=[], yticks=[]) 
CreatePlot .axl = plt.subplot (1il, frameon=False, **axprops) 
plotTree.totalW = float (getNumLeafs (inTree)) 
plotTree.totalD = float (getTreeDepth (inTree)) 


plotTree.xOff = -0.5/plotTree.totalWw; plotTree.yOff = 1.0; 
plotTree (inTree， {0.5,1.0), '') 
plt.show!() 


函数 createPlot () 是 我 们 使 用 的 主 函 数 , 它 调用 了 plotTree ()， 函数 plotmree 又 依次 调 
Re 绍 的 函数 和 plotMidText () 。 绘 制 树 形 图 的 很 多 工作 都 是 在 函数 plotTree () 中 完成 
I ， 函 数 plotTree () 首先 计算 树 的 宽 和 高 @。 全 局 变量 plotTree .totalw 存 储 树 的 宽度 ， 全 

i .totalD 存 储 树 的 深度 ， 我 们 使 用 这 两 个 变量 计算 树 节点 的 摆 放 位 置 ， 这 样 可 
以 将 树 绘制 在 水 平方 向 和 垂直 方向 的 中 心 位置 。 与 程序 清单 3-6 中 的 函数 getNumLeafs () 和 
getTreeDepth() 类 似 ， 函 数 plotTree () 也 是 个 递归 函数 。 树 的 宽度 用 于 计算 放置 判断 节点 的 
位 置 ， 主 要 的 计算 原则 是 将 它 放 在 所 有 叶子 节点 的 中 间 ， 而 不 仅仅 是 它 子 节点 的 中 间 。 同 时 我 们 
使 用 两 个 全 局 变量 plotTree .xoff 和 plotTree. yoff 追 踪 已 经 绘制 的 节 点 位 置 ， 以 及 放置 下 一 
个 节点 的 恰当 位 置 。 另 一 个 需要 说 明 的 问题 是 ， 绘 制图 形 的 x 轴 有 效 范围 是 0.0 到 1.0，y 轴 有 效 范 
围 也 是 0.0 ~ 1.0。 为 了 方便 起 见 ， 图 3-6 给 出 具体 坐标 值 ， 实 际 输出 的 图 形 中 并 没有 x、y 坐 标 。 通 
过 计算 树 包含 的 所 有 叶子 节点 数 ， 划 分 图 形 的 宽度 ， 从 而 计算 得 到 当前 节点 的 中 心 位 置 , 也 就 是 
说 ,我 们 按照 叶子 节点 的 数目 将 x 轴 划 分 为 若干 部 分 。 按 照 图 形 比 例 绘制 树 形 图 的 最 大 好 处 是 无 
需 关心 实际 输出 图 形 的 大 小 , 一 旦 图 形 大 小 发 生 了 变化 ， 函 数 会 自动 按照 图 形 大 小 重新 绘制 。 如 
果 以 像素 为 单位 绘制 图 形 ， 则 缩放 图 形 就 不 是 一 件 简单 的 工作 。 

接着 , 绘 出 子 节点 具有 的 特征 值 , 或 者 沿 此 分 支 向 下 的 数据 实例 必须 具有 的 特征 值 @。 使 用 
函数 plotMiaText () 计 算 父 节点 和 子 节点 的 中 间 位 置 ， 并 在 此 处 添加 简单 的 文本 标签 信息 @。 

然后 , 按 比例 减少 全 局 变量 plotTree.yoff, 并 标注 此 处 将 要 绘制 子 节点 @@， 这些 节点 即 可 以 
是 叶子 节点 也 可 以 是 判断 节点 ， 此 处 需要 只 保存 绘制 图 形 的 轨迹 。 因 为 我 们 是 自 项 向 下 绘制 图 形 ， 
因此 需要 依次 递减 ?坐标 值 ， 而 不 是 递增 7 坐标 值 。 然 后 程序 采用 函数 getNumLeafts () 和 


”getTreeDepth() 以 相同 的 方式 递归 遍历 整 棵 树 ， 如 果 节 点 是 叶子 节点 则 在 图 形 上 画 出 叶子 节点 ， 
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如 果 不 是 叶子 节点 则 递归 调用 plotTree() 函数 。 在 绘制 了 所 有 子 节 点 之 后 ,增加 全 局 变量 Y 的 偏 移 。 

程序 清单 3-7 的 最 后 一 个 函数 是 createPlot () ， 它 创建 绘图 区 ， 计 算 树 形 图 的 全 局 尺寸 ， 
并 调用 递归 函数 plotTree () 。 

现在 我 们 可 以 验证 一 下 实际 的 输出 效果 。 添 加 上 述 代码 到 文件 treePlotterpy 之 后 ， 在 Python 
命令 提示 符 下 输入 下 列 命令 : 

>>> reload (treeplotter) 

<module 'treePlotter' from 'treePlotter .pyc'> 


>>> myTree=treeplotter.retrieveTree (0) 
>>> treePlotter .createPlot (myTree) 


输出 效果 如 图 3-6 所 示 ， 但 是 没有 坐标 轴 标 签 。 接 着 按照 如 下 命令 变更 字典 ， 重 新 绘制 树 形 图 


>>> myTree['no surfacing'] [3] ='maybe' 

>>> myTree 

{'no surfacing ': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}, 3: 

'maybe' }} 

>>> 七 YeePLotter ,createP1ot (myTree) 
输出 效果 如 图 3-7 所 示 ， 有 点 像 一 个 无 头 的 简 笔 画 。 你 也 可 以 在 树 字 典 中 随意 添加 一 些 数据 ， 并 
重新 绘制 树 形 图 观察 输出 结果 的 变化 。 

到 目前 为 止 , 我 们 已 经 学 习 了 如 何 构造 决策 树 以 及 绘制 树 形 图 的 方法 ,下 节 我 们 将 实际 使 用 
这 些 方法 ， 并 从 数据 和 算法 中 得 到 某 些 新 知识 。 





Co) yes 
图 3-7 超过 两 个 分 支 的 树 形 图 


3.3 测试 和 存储 分 类 器 
本 书 第 一 部 分 主要 讲解 机 器 学 习 的 分 类 算法 ， 然 而 到 目前 为 止 ， 本 章 学 习 的 主要 内 容 是 如 何 








3.3 测试 和 存储 分 类 器 49 





从 原始 数据 集中 创建 决策 树 ， 并 使 用 Python 函数 库 绘制 树 形 图 ， 方 便 我 们 了 解数 据 的 真实 含义 ， 
下 面 我 们 将 把 重点 转移 到 如 何 利用 决策 树 执行 数据 分 类 上 。 

本 节 我 们 将 使 用 决策 树 构建 分 类 器 ,以 及 实际 应 用 中 如 何 存储 分 类 器 。 下 一 节 我 们 将 在 真实 
数据 上 使 用 决策 树 分 类 算法 ， 验 证 它 是 否 可 以 正确 预测 出 患者 应 该 使 用 的 隐形 眼镜 类 型 。 


3.3.1 测试 算法 :使 用 决策 树 执行 分 类 


依靠 训练 数据 构造 了 决策 树 之 后 ， 我 们 可 以 将 它 用 于 实际 数据 的 分 类 。 在 执行 数据 分 类 时 ， 
需要 决策 树 以 及 用 于 构造 树 的 标签 向 量 。 然 后 , 程序 比较 测试 数据 与 决策 树 上 的 数值 ,递归 执行 
该 过 程 直到 进入 叶子 节点 ; 最 后 将 测试 数据 定义 为 叶子 节点 所 属 的 类 型 。 

为 了 验证 算法 的 实际 效果 , 打开 文本 编辑 器 , 将 程序 清单 3-8 包 含 的 代码 添加 到 文件 trees.py 中 。 


程序 清单 3-8 ”使 用 决策 树 的 分 类 函数 


def classify(inputTree,featLabels,testVec): 
firstStr = inputTree.keys{) [0] 
secondDict = inputTree [firststr]) 
featIndex = featLabels.index (firstStr) 
for key in secondDict .keys() : 
if testVec [featInqex]l == key: 
if type{(secondDict[key]). name =='dict': 


.9 将 标签 字符 串 转换 为 索引 


classLabel = classify (secondDict {key] ,featLabels, testVec): 
else: classLabel = secondDict [key] 
return classLabel 


程序 清单 3-8 定 义 的 函数 也 是 一 个 递归 函数 ， 在 存储 带 有 特征 的 数据 会 面临 一 个 问题 ， 程 序 
无 法 确定 特征 在 数据 集中 的 位 置 ， 例 如 前 面 例子 的 第 一 个 用 于 划分 数据 集 的 特征 是 no 
surfacing 属 性 ,但 是 在 实际 数据 集中 该 属性 存储 在 哪个 位 置 ? 是 第 一 个 属性 还 是 第 二 个 属性 ? 
特征 标签 列表 将 帮助 程序 处 理 这 个 问题 。 使 用 index 方 法 查找 当前 列表 中 第 一 个 匹配 firststr 
恋 量 的 元 素 人 @。 然 后 代码 递归 遍历 整 棵 树 ， 比 较 testvec 变 量 中 的 值 与 树 节点 的 值 ， 如 果 到 达 叶 
子 节点 ， 则 返回 当前 节点 的 分 类 标签 。 

将 程序 清单 3-8 包 含 的 代码 添加 到 文件 trees.py 之 后 ， 打 开 Python 命 令 提示 符 , 输入 下 列 命 令 : 


>>> myDat, labels=trees .createDataSet () 

>>> labels 

[no surfacing', 'flippers'] 

>>> myTree=treePlotter.retrieveTree (0) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 
>>> trees.classify (myTree, labels, {1,0]) 

ino! 

>>> trees.classify (myTree, labels, [1,1]) 

'yes'! 


与 图 3-6 比 较 上 述 输出 结果 。 第 一 节点 名 为 no surfacing ， 它 有 两 个 子 节点 : 一 个 是 名 字 为 0 的 
叶子 节点 ， 类 标签 为 no; 另 一 个 是 名 为 flippers 的 判断 节点 ， 此 处 进入 递归 调用 ，flippers 节 点 有 两 
个 子 节点 。 以 前 绘制 的 树 形 图 和 此 处 代表 树 的 数据 结构 完全 相同 。 
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现在 我 们 已 经 创建 了 使 用 决策 树 的 分 类 器 ， 但 是 每 次 使 用 分 类 器 时 ， 必 须 重新 构造 决策 树 ， 
下 一 节 我 们 将 介绍 如 何在 硬盘 上 存储 决策 树 分 类 器 。 


3.3.2 ”使 用 算法 : 决策 树 的 存储 


构造 决策 树 是 很 耗 时 的 任务 ， 即 使 处 理 很 小 的 数据 集 ， 如 前 面 的 样本 数据 ,也 要 花费 几 秘 的 
时 间 ， 如 果 数 据 集 很 大 ， 将 会 耗费 很 多 计算 时 间 。 然 而 用 创建 好 的 决策 树 解决 分 类 问题 ， 则 可 以 
很 快 完成 。 因 此 ， 为 了 节省 计算 时 间 ， 最 好 能 够 在 每 次 执行 分 类 时 调用 已 经 构造 好 的 决策 树 。 为 
了 解决 这 个 问题 ， 需 要 使 用 Python 模块 pickle 序 列 化 对 象 , 参见 程序 清单 39。 序列 化 对 象 可 以 在 磁 
盘 上 保存 对 象 ， 并 在 需要 的 时 候 读 取出 来 。 任 何 对 象 都 可 以 执行 序列 化 操作 ,字典 对 象 也 不 例外 。 


程序 清单 3-9 使 用 pickle 模 块 存储 决策 树 


def storeTree (inputTree,filename): 
import pickle 
fw = open(filename,'w') 
pickle.dump (inputTree, fw) 
fw.close() 


def grabTree (filename): 
import pickle 
fr = open (filename) 
return pickle.load (fr) 


在 Python 命 令 提 示 符 中 输入 下 列 命令 验证 上 述 代码 的 效果 : 


>>> trees.storeTree (myTree, 'classifierStorage.txt') 
>>> trees.grabTree('classifierSstorage.txt') 
{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no'，1: 'yes'}}}} 


通过 上 面 的 代码 ,我 们 可 以 将 分 类 器 存储 在 硬盘 上 , 而 不 用 每 次 对 数据 分 类 时 重新 学 习 -一 饥 ， 
这 也 是 决策 树 的 优点 之 一 ， 像 第 2 章 介 绍 了 -近邻 算法 就 无 法 持久 化 分 类 器 。 我 们 可 以 预先 提炼 
并 存储 数据 集中 包含 的 知识 信息 ,在 需要 对 事物 进行 分 类 时 再 使 用 这 些 知 识 。 下 节 我 们 将 使 用 这 
些 工 具 处 理 隐形 眼镜 数据 集 。 


3.4 示例 : 使 用 决策 树 预测 隐形 眼镜 类 型 


本 市 我 们 将 通过 一 个 例子 讲解 决策 树 如 何 预测 患者 需要 佩戴 的 隐形 眼镜 类 型 。 使 用 小 数据 
集 , 我 们 就 可 以 利用 决策 树 学 到 很 多 知识 : 眼科 医生 是 如 何 判断 患者 需要 佩戴 的 镜片 类 型 ;一旦 
理解 了 决策 树 的 工作 原理 ， 我 们 甚至 也 可 以 帮助 人 们 判断 需要 佩戴 的 镜片 类 型 。 


. 示例 ; 使 用 决策 树 预测 隐形 眼镜 类 型 
(1) 收集 数据 提供 的 文本 文件 。 
(2) 准备 数据 : 解析 tab 键 分 隔 的 数据 行 。 ee 
(3) 分 析 数 据 ; 快速 检查 数据 ， 确 保 正 确 地 解析 数据 内 容 ， 使 用 createPlot () 函数 绘制 
最 终 的 树 形 图 。 


3.4 示例 : 使 用 决策 树 预 测 隐形 眼镜 类 型 51 





(4) 训练 算法 : 使 用 3.1 节 的 createTree () 函数 。 
(5) 测试 工法 : 编写 测试 函数 验证 决策 树 可 以 正确 分 类 给 定 的 数据 实例 。 
(6) 使 用 算法 ， 存储 树 的 数据 结构 ， 以 便 下 次 使 用 时 无 需 重 新 构造 树 。 


隐形 眼镜 数据 集 " 是 非常 著名 的 数据 集 ， 它 包含 很 多 患者 眼 部 状况 的 观察 条 件 以 及 医生 推荐 的 
隐形 眼镜 类 型 。 隐 形 眼 镜 类 型 包括 硬 材 质 、 软 材质 以 及 不 适合 佩戴 隐形 眼镜 。 数 据 来 源 于 UCI 数 据 
库 , 为 了 更 容易 显示 数据 , 本 书 对 数据 做 了 简单 的 更 改 , 数据 存储 在 源 代码 下 载 路 径 的 文本 文件 中 。 

可 以 在 Python 命令 提示 符 中 输入 下 列 命令 加 载 数据 ， 

>>> fr=open('lenses.txt') 

>>> Jenses= [inSst.strip{().split('NXt') for inst in fr.readlines()] 

>>> lensesLabels=['age', 'prescript', 'astigmatic', 'tearRate'] 


>>> lensesTree = trees.createTree (lenses, lensesLabels) 
>>> lensesTree 


{'tearRate': {'reduced': 'no lenses', 'normal': {'astigmatic':; {'yes': 
{'prescript': {'hyper': {'age': {'pre': 'no lenses', 'presbyopic!: 
Ino lenses', ‘'young':'hard'}}, 'myope': 'hard'}}, 'no': {'age': {'pre': 


'soft', 'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 
‘no lenses'}}, ‘young': 'soft'})}}}}} 
>>> treePlotter.createplot (lensesTree) 


采用 文本 方式 很 难 分 辨 出 决策 树 的 模样 ， 最 后 一 行 命令 调用 createPlot () 函数 绘制 了 如 图 
3-8 所 示 的 树 形 图 。 沿 着 决策 树 的 不 同 分 支 ， 我 们 可 以 得 到 不 同 患者 需要 佩戴 的 隐形 眼镜 类 型 。 从 
图 3-8 上 我 们 也 可 以 发 现 ， 医 生 最 多 需要 问 四 个 问题 就 能 确定 患者 需要 佩戴 册 种 类 型 的 隐形 眼镜 。 


aaLej 





图 3-8 由 ID3 算 法 产生 的 决策 树 


© The dataset is a modified version of the Lenses dataset retrieved from the UCI Machine Learning Repository November 3， 
2010 [http://archive.ics.uci.edu/ml/machine-learning-databases/lenses/]. The source of the data is Jadzia Cendrowska and 
was originally published in “PRISM: An algorithm for inducing modular rules ”in International Journal of Man-Machine 
Studies (1987), 27, 349—70.) : 
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图 3-8 所 示 的 决策 树 非常 好 地 匹配 了 实验 数据 ， 然 而 这 些 匹配 选项 可 能 太 多 了 。 我 们 将 这 种 
问题 称 之 为 过 度 匹 配 ( overfitting )。 为 了 减少 过 度 匹 配 问题 ， 我们 可 以 裁剪 决策 树 ， 去 掉 一 些 不 
必要 的 叶子 节点 。 如 果 叶子 节点 只 能 增加 少许 信息 ， 则 可 以 删除 该 节点 ,将 它 并 入 到 其 他 叶子 节 
点 中 。 第 9 章 将 进一步 讨论 这 个 问题 。 

” 第 9 章 将 学 习 另 一 个 决策 树 构造 算法 CART， 本 章 使 用 的 算法 称 为 ID3， 它 是 一 个 好 的 算法 但 
并 不 完美 。ID3 算 法 无 法 直接 处 理 数值 型 数据 ， 尽 管 我 们 可 以 通过 量化 的 方法 将 数值 型 数据 转化 
为 标 称 型 数值 ， 但 是 如 果 存 在 太 多 的 特征 划分 ，ID3 算 法 仍然 会 面临 其 他 问题 。 


3.5 ”本 章 小 结 


决策 树 分 类 器 就 像 带 有 终止 块 的 流程 图 ,终止 块 表示 分 类 结果 。 开 始 处 理 数据 集 时 ,我 们 首 
先 需 要 测量 集合 中 数据 的 不 一 致 性 ， 也 就 是 粹 ,然后 寻找 最 优 方案 划分 数据 集 ， 直 到 数据 集中 的 
所 有 数据 属于 同一 分 类 。ID3 算 法 可 以 用 于 划分 标 称 型 数据 集 。 构 建 决策 树 时 ， 我 们 通常 采用 递 
归 的 方法 将 数据 集 转化 为 决策 树 。 一 般 我 们 并 不 构造 新 的 数据 结构 ， 而 是 使 用 Python 语 言 内 嵌 的 
数据 结构 字典 存储 树 节点 信息 。 

使 用 Matplotlib 的 注解 功能 , 我 们 可 以 将 存储 的 树 结构 转化 为 容易 理解 的 图 形 。Python 语 言 的 
pickle 模 块 可 用 于 存储 决策 树 的 结构 。 隐形 眼镜 的 例子 表明 决策 树 可 能 会 产生 过 多 的 数据 集 划 分 ， 
从 而 产生 过 度 匹配 数据 集 的 问题 。 我们 可 以 通过 裁剪 决策 树 ,合并 相 邻 的 无 法 产生 大 量 信息 增益 
”的 叶 节点 ， 消 除 过 度 匹 配 问题 。 

还 有 其 他 的 决策 树 的 构造 算法 ,最 流行 的 是 C4.5 和 CART ,第 9 章 讨论 回归 问题 时 将 介绍 CART 
算法 。 

本 书 第 2 章 、 第 3 章 讨 论 的 是 结果 确定 的 分 类 算法 ,数据 实例 最 终 会 被 明确 划分 到 某 个 分 类 中 。 
下 一 章 我 们 讨论 的 分 类 算法 将 不 能 完全 确定 数据 实例 应 该 划分 到 某 个 分 类 , 或 者 只 能 给 出 数据 实 
例 属于 给 定 分 类 的 概率 。 














第 4 章 本 
基于 概率 论 的 分 类 方法 
朴素 贝 叶 斯 
本 章 内 容 
口 使 用 概率 分 布 进行 分 类 
口 学 习 朴素 贝 叶 斯 分 类 器 
口 解析 RSS 源 数据 


口 使 用 朴素 贝 叶 斯 来 分 析 不 同 地 区 的 态度 


前 两 章 我 们 要 求 分 类 器 做 出 艰难 决策 ， 给 出 “该 数据 实例 属于 哪 一 类 ”这 类 问题 的 明确 答 
案 。 不 过 ,分 类 器 有 时 会 产生 错误 结果 ， 这 时 可 以 要 求 分 类 器 给 出 一 个 最 优 的 类 别 猜 测 结果 ， 同 
时 给 出 这 个 猜测 的 概率 估计 值 。 

概率 论 是 许多 机 器 学 习 算法 的 基础 ， 所 以 深刻 理解 这 一 主题 就 显得 十 分 重要 。 第 3 章 在 计算 
特征 值 取 某 个 值 的 概率 时 涉及 了 一 些 概率 知识 , 在 那里 我 们 先 统计 特征 在 数据 集中 取 某 个 特定 值 
的 次 数 ,然后 除 以 数据 集 的 实例 总 数 , 就 得 到 了 特征 取 该 值 的 概率 。 我们 将 在 此 基础 上 深入 讨论 。 

本 章 会 给 出 一 些 使 用 概率 论 进行 分 类 的 方法 。 首 先 从 一 个 最 简单 的 概率 分 类 器 开始 ,然后 给 
出 一 些 假设 来 学 习 朴 素 贝 叶 斯 分 类 器 。 我 们 称 之 为 “朴素 "， 是 因为 整个 形式 化 过 程 只 做 最 原始 、 
最 简单 的 假设 。 不 必 担 心 ， 你 会 详细 了 解 到 这 些 假设 。 我 们 将 充分 利用 Python 的 文本 处 理 能 力 将 
文档 切 分 成 词 向 量 , 然后 利用 词 向 量 对 文档 进行 分 类 。 我 们 还 将 构建 另 一 个 分 类 器 ,观察 其 在 真 
实 的 垃圾 邮件 数据 集中 的 过 滤 效 果 ， 必 要 时 还 会 回顾 一 下 条 件 概率 。 最 后 ,我们 将 介绍 如 何 从 个 
人 发 布 的 大 量 广告 中 学 习 分 类 器 ， 并 将 学 习 结 果 转 换 成 人 类 可 理解 的 信息 。 


4.1 基于 贝 叶 斯 决策 理论 的 分 类 方法 
a 3 ce 





优点 ;在 数据 较 少 的 情况 下 仍然 有 效 ， 可 以 处 
缺点 ;对 于 输入 数据 的 准备 方式 较为 敏感 
适用 数据 类 型 ， 标 称 型 数据 。 
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朴素 贝 叶 斯 是 贝 叶 斯 决策 理论 的 一 部 分 , 所 以 讲述 朴素 贝 叶 斯 之 前 有 必要 快速 了 解 一 下 贝 叶 
斯 决策 理论 。 
假设 现在 我 们 有 一 个 数据 集 ， 它 由 两 类 数据 组 成 ， 数 据 分 布 如 图 4-1 所 示 。 








图 4-1 两 个 参数 已 知 的 概率 分 布 ， 参 数 决定 了 分 布 的 形状 


假设 有 位 读者 找到 了 描述 图 中 两 类 数据 的 统计 参数 。( 暂且 不 用 管 如 何 找到 描述 这 类 数据 的 
统计 参数 ， 第 10 章 会 详细 介绍 。) 我 们 现在 用 pl (x, y) 表示 数据 点 (x,y) 属 于 类 别 1 ( 图 中 用 圆 点 表 
示 的 类 别 ) 的 概率 ， 用 p2 (x,y) 表示 数据 点 (xy 属于 类 别 2 ( 图 中 用 三 角形 表示 的 类 别 ) 的 概率 ， 
那么 对 于 一 个 新 数据 点 (xc 力 ， 可 以 用 下 面 的 规则 来 判断 它 的 类 别 ， 

口 如 果 pl (x,y) > p2 (x,y)， 那 么 类 别 为 1。 

口 如 果 p2 (x,y) > pl (x,y)， 那 么 类 别 为 2。 

也 就 是 说 , 我 们 会 选择 高 概率 对 应 的 类 别 。 这 就 是 贝 叶 斯 决策 理论 的 核心 思想 ， 即 选择 具有 
最 高 概率 的 决策 。 回 到 图 4-1， 如 果 该 图 中 的 整个 数据 使 用 6 个 浮 点 数 ? 来 表示 ， 并 且 计 算 类 别 概 
率 的 Python 代码 只 有 两 行 ， 那 么 你 会 更 倾向 于 使 用 下 面 娜 种 方法 来 对 该 数据 点 进行 分 类 ? 

(1) 使 用 第 1 章 的 kNN， 进 行 1000 次 距离 计算 ; 

(2) 使 用 第 2 章 的 决策 树 ， 分 别 沿 x 轴 、y 轴 划分 数据 ， 

(3) 计算 数据 点 属于 每 个 类 别 的 概率 ， 并 进行 比较 。 

使 用 决策 树 不 会 非常 成 功 ; 而 和 简单 的 概率 计算 相 比 ，kNN 的 计算 量 太 大 。 因 此 ， 对 于 上 述 
问题 ， 最 佳 选择 是 使 用 刚才 提 到 的 概率 比较 方法 。 


QD 整个 数据 由 两 类 不 同 分 布 的 数据 构成 ， 有 可 能 只 需要 6 个 统计 参数 来 描述 。 一 一 译 者 注 
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接 下 来 ,我 们 必须 要 详 述 p1 及 p1 概 率 计算 方法 。 为 了 能 够 计算 p1 与 p2， 有 必要 讨论 一 下 条 件 
概率 。 如 果 你 觉得 自己 已 经 相当 了 人 解 条 件 概率 了 ， 那 么 可 以 直接 跳 过 下 一 节 。 


贝 叶 斯 ? ; | a 
这 里 使 用 的 概率 解释 属于 贝 叶 斯 概率 理论 的 范畴 ,该 理论 非常 流行 且 效 果 良 好 。 贝 叶 斯 概 
率 以 18 世 纪 的 一 位 神学 家 托马斯 ， 贝 叶 斯 (Thomas Bayes ) 的 名 字 命 名 。 贝 叶 斯 概率 引入 先 验 
知识 和 逻辑 推理 来 处 理 不 确定 命题 。 另 一 种 概率 解释 称 为 频数 概率 ( frequency probability )， 
它 只 从 数据 本 身 获得 结论 ， 并 不 考虑 逻辑 推理 及 先 验 知识 。 


4.2 条 件 概率 


接 下 来 花 点 时 间 讲 讲 概率 与 条 件 概率 。 如 果 你 对 p (x,ylc,) 符 号 很 熟悉 ， 那 么 可 以 跳 过 | 
本 节 。 
假设 现在 有 一 个 装 了 7 块 石头 的 摊子 ， 其 中 3 块 是 灰色 的 ，4 块 是 黑色 的 (如 图 4-2 所 示 )。 如 
果 从 饶 子 中 随机 取出 一 块 石 头 , 那么 是 灰色 石头 的 可 能 性 是 多 少 ? 由 于 取石 头 有 7 种 可 能 ,其 中 3 
种 为 灰色 ， 所 以 取出 灰色 石头 的 概率 为 37。 那 么 取 到 黑色 石头 的 概率 又 是 多 少 呢 ? 很 显然 ， 是 
4/7。 我 们 使 用 P(gray) 来 表示 取 到 灰色 石头 的 概率 ， 其 概率 值 可 以 通过 灰色 石头 数目 除 以 总 的 
石头 数目 来 得 到 。 


SO 
@@@@ 


图 4-2 ”一 个 包含 7 块 石头 的 集合 ， 石 头 的 颜色 为 灰色 或 者 黑色 。 如 果 随 机 从 中 取 一 块 
石头 ， 那 么 取 到 灰色 石头 的 概率 为 37。 类 伏地， 取 到 黑色 石头 的 概率 为 4/7 


如 果 这 7 块 石头 如 图 4-3 所 示 放 在 两 个 桶 中 ， 那 么 上 述 概率 应 该 如 何 计算 ? 











图 4-3 ” 落 到 两 个 桶 中 的 7 块 石头 
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要 计算 P (gray) 或 者 P (black) ， 事 先 得 知道 石头 所 在 桶 的 信息 会 不 会 改变 结果 ?你 有 可 能 
已 经 想到 计算 从 B 桶 中 取 到 灰色 石头 的 概率 的 办 法 ， 这 就 是 所 谓 的 条 件 概率 〈conditional 
probability )。 假 定 计算 的 是 从 B 桶 取 到 灰色 石头 的 概率 ， 这 个 概率 可 以 记 作 P (gray|bucketB) ， 
我 们 称 之 为 “在 已 知 石 头 出 自 B 桶 的 条 件 下 , 取出 灰色 石头 的 概率 "。 不 难得 到 , P (gray |bucketA) 
值 为 24，P(gray|bucketB) 的 值 为 1/3。 | 

条 件 概率 的 计算 公式 如 下 所 示 ， 

P(gray|bucketB) = P(gray and bucketB)/P(bucketB) 

我 们 来 看 看 上 述 公 式 是 否 合理 。 首 先 ， 用 B 桶 中 灰色 石头 的 个 数 除 以 两 个 桶 中 总 的 石头 数 ， 
得 到 P(gray and bucketB) = 1/7。 其 次 ， 由 于 B 桶 中 有 3 块 石 头 ， 而 总 石头 数 为 7， 于 是 
P (bucketB) 就 等 于 3/7。 于 是 有 P (gray|bucketB) = P(gray and bucketB) /P(bucketB) = 
(1/7) / (3/7) = 1/3。 这 个 公式 虽然 对 于 这 个 简单 例子 来 说 有 点 复杂 ， 但 当 存 在 更 多 特征 时 
是 非常 有 效 的 。 用 代数 方法 计算 条 件 概率 时 ， 该 公式 也 很 有 用 。 

另 一 种 有 效 计算 条 件 概率 的 方法 称 为 贝 叶 斯 准则 。 贝 叶 斯 准则 告诉 我 们 如 何 交换 条 件 概 率 中 
的 条 件 与 结果 ， 即 如 果 已 知 P(x|c) ， 要 求 P(c|x) ， 那么 可 以 使 用 下 面 的 计算 方法 : 
pd = LS 

我 们 讨论 了 条 件 概率 , 接 下 来 的 问题 是 如 何 将 其 应 用 到 分 类 器 中 。 下 一 节 将 讨论 如 何 结合 贝 
叶 斯 决策 理论 使 用 条 件 概率 。 


4.3 ”使 用 条 件 概率 来 分 类 


4.1 节 提 到 贝 叶 斯 决策 理论 要 求 计算 两 个 概率 p1 (x，y) 和 p2 (x，y): 

口 如 果 p1(x，y) > p2(x，y) ， 那 么 属于 类 别 1; 

口 如 果 p2 (x，y) > pl(x，y)， 那 么 属于 类 别 2。 

但 这 两 个 准则 并 不 是 贝 叶 斯 决策 理论 的 所 有 内 容 。 使 用 p1 ( ) 和 p2 ( ) 只 是 为 了 尽 可 能 简化 
描述 ， 而 真正 需要 计算 和 比较 的 是 p (c, |x，y) 和 p (c,|x，YyY) 。 这 些 符号 所 代表 的 具体 意义 是 : 
给 定 某 个 由 x、y 表 示 的 数据 点 ， 那 么 该 数据 点 来 自 类 别 c, 的 概率 是 多 少 ? 数据 点 来 自 类 别 c, 的 概 
率 又 是 多 少 ? 注意 这 些 概率 与 刚才 给 出 的 概率 p (x，y|c,) 并 不 一 样 ， 不 过 可 以 使 用 贝 叶 斯 准则 
来 交换 概率 中 条 件 与 结果 。 具 体 地 ， 应 用 贝 叶 斯 准则 得 到 ， 

Alo) = ee DLE 
. 1 p(x,y) 

使 用 这 些 定义 ， 可 以 定义 贝 叶 斯 分 类 准则 为 ; 

口 如 果 P(c,|x，y) > P(c,|x，y)， 那 么 属于 类 别 c,。 

口 如 果 P(c,|x，y) < P(c:|x，y) ， 那 么 属于 类 别 c,。 

使 用 贝 叶 斯 准则 , 可 以 通过 已 知 的 三 个 概率 值 来 计算 未 知 的 概率 值 。 后 面 就 会 给 出 利用 贝 叶 
斯 准则 来 计算 概率 并 对 数据 进行 分 类 的 代码 。 现 在 介绍 了 一 些 概率 理论 , 你 也 了 解 了 基于 这 些 理 
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论 构建 分 类 器 的 方法 ， 接 下 来 就 要 将 它们 付 诸 实践 。 下 一 节 会 介绍 一 个 简单 但 功能 强大 的 贝 叶 其 
分 类 器 的 应 用 案例 。 


4.4 使 用 朴素 贝 叶 斯 进行 文档 分 类 


机 器 学 习 的 一 个 重要 应 用 就 是 文档 的 自动 分 类 。 在 文档 分 类 中 ， 整 个 文档 (如 一 封 电子 邮件 ) 
是 实例 ， 而 电子 邮件 中 的 某 些 元 素 则 构成 特征 。 虽 然 电 子 邮 件 是 一 种 会 不 断 增加 的 文本 ,但 我 们 同 
样 也 可 以 对 新 闻 报 道 、 用 户 留言 、 政 府 公文 等 其 他 任意 类 型 的 文本 进行 分 类 。 我 们 可 以 观察 文档 中 
出 现 的 词 , 并 把 每 个 词 的 出 现 或 者 不 出 现 作 为 一 个 特征 , 这 样 得 到 的 特征 数目 就 会 跟 词汇 表 中 的 词 
目 一 样 多 。 朴 素 贝 叶 斯 是 上 节 介绍 的 贝 叶 斯 分 类 器 的 一 个 扩展 ， 是 用 于 文档 分 类 的 常用 算法 。 

使 用 每 个 词 作为 特征 并 观察 它们 是 否 出 现 , 这 样 得 到 的 特征 数目 会 有 多 少 呢 ? 针 对 的 是 哪 一 
种 人 类 语言 呢 ? 当然 不 止 一 种 语言 。 拟 估计 ， 仅 在 英语 中 ， 单 词 的 总 数 就 有 500 0008 之 多 。 为 了 
能 进行 英文 阅读 ， 估 计 需 要 掌握 数 千 单词 。 


0 和 

(1) 收集 数据 ;可 以 使 用 任何 方法 。 本 章 使 用 RSS 源 。 

(2) 准备 数据 ， 需要 数值 型 或 者 布尔 型 数据 。 | 

(3) 分 析 数 据 : 有 大 量 特 征 时 ， 绘 制 特征 作用 不 大 ， 此 时 使 用 直方 图 效果 更 好 。 

(4) 训练 算法 : 计算 不 同 的 独立 特征 的 条 件 概率 。 . 

(5) 测试 算法 : 计算 错误 率 。 

(6) 使 用 算法 : 一 个 常见 的 朴素 贝 叶 斯 应 用 是 文档 分 类 。 可 以 在 任意 的 分 类 场景 中 使 用 村 
素 贝 叶 斯 分 类 器 ， 不 一 定 非 要 是 文本 。 


假设 词汇 表 中 有 1000 个 单词 。 要 得 到 好 的 概率 分 布 ， 就 需要 足够 的 数据 样本 ,假定 样本 数 为 
Ne 前 面 讲 到 的 约会 网 站 示例 中 有 1000 个 实例 , 手写 识别 示例 中 每 个 数字 有 200 个 样本 ， 而 决策 树 
示例 中 有 24 个 样本 。 其 中 ，24 个 样本 有 点 少 ，200 个 样本 好 一 些 ， 而 1000 个 样本 就 非常 好 了 。 约 
会 网 站 例子 中 有 三 个 特征 。 由 统计 学 知 ， 如 果 每 个 特征 需要 N 个 样本 ， 那么 对 于 10 个 特征 将 需要 
N 个 样本 ， 对 于 包含 1000 个 特征 的 词汇 表 将 需要 Nioo 个 样本 。 可 以 看 到 ， 所 需要 的 样本 数 会 随 
着 特征 数目 增 大 而 迅速 增长 。 
如 果 特 征 之 间 相互 独立 , 那么 样本 数 就 可 以 从 Mio 减少 到 1000xN。 所 谓 独 立 (independence ) 
章 的 是 统计 意义 上 的 独立 ， 即 一 个 特征 或 者 单词 出 现 的 可 能 性 与 它 和 其 他 单词 相 邻 没有 关系 。 举 
个 例子 讲 , 假设 单词 bacon 出 现在 unhealthy 后 面 与 出 现在 delicious 后 面 的 概率 相同 。 当 然 ， 我 们 知 
道 这 种 假设 并 不 正确 ，bacon 常 常 出 现在 delicious 附 近 ， 而 很 少 出 现在 unhealthy 附 近 ， 这 个 假设 正 
是 朴素 贝 叶 斯 分 类 器 中 朴素 (naive ) 一 词 的 含义 。 朴 素 贝 叶 斯 分 类 器 中 的 另 一 个 假设 是 ,每 个 特 
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征 同等 重要 "。 其 实 这 个 假设 也 有 问题 。 如 果 要 判断 留言 板 的 留言 是 否 得 当 ， 那 么 可 能 不 需要 看 
完 所 有 的 1000 个 单词 , 而 只 需要 看 10 ~ 20 个 特征 就 足以 做 出 判断 了 。 尽管 上 述 假设 存在 一 些小 的 
正 症 ， 但 朴素 贝 叶 斯 的 实际 效果 却 很 好 。 

到 目前 为 止 ， 你 已 经 了 解 了 足够 的 知识 ， 可 以 开始 编写 代码 了 。 如 果 还 不 清楚 , 那么 了 解 代 
码 的 实际 效果 会 有 助 于 理解 。 下 一 节 将 使 用 Python 来 实现 朴素 贝 叶 斯 分 类 器 ， 实 现 中 会 涉及 利用 
Python 进行 文本 分 类 的 所 有 相关 内 容 。 


4.5 使 用 Python 进行 文本 分 类 


要 从 文本 中 获取 特征 ， 需 要 先 拆 分 文本 。 具 体 如 何 做 呢 ? 这 里 的 特征 是 来 自 文本 的 词 条 
( token ), 一 个 词 条 是 字符 的 任意 组 合 。 可 以 把 词 条 想象 为 单词 , 也 可 以 使 用 非 单词 词 条 , 如 URL、 
下 地 址 或 者 任意 其 他 字符 串 。 然 后 将 每 一 个 文本 片段 表示 为 一 个 词 条 向 量 ， 其 中 值 为 1 表示 词 条 
出 现在 文档 中 ，0 表 示 词 条 未 出 现 。 

以 在 线 社区 的 留言 板 为 例 。 为 了 不 影响 社区 的 发 展 , 我 们 要 屏 项 侮辱 性 的 言论 , 所 以 要 构建 一 
个 快速 过 滤器 ,如 果 某 条 留言 使 用 负面 或 者 侮辱 性 的 语言 ,那么 就 将 该 留言 标识 为 内 容 不 当 。 过 
滤 这 类 内 容 是 一 个 很 常见 的 需求 。 对 此 问题 建立 两 个 类 别 ; 侮辱 类 和 非 侮辱 类 , 使 用 1 和 0 分 别 表示 。 

接 下 来 首先 给 出 将 文本 转换 为 数字 向 量 的 过 程 ， 然 后 介绍 如 何 基于 这 些 向 量 来 计算 条 件 概率 ， 
并 在 此 基础 上 构建 分 类 器 ， 最 后 还 要 介绍 一 些 利用 Python 实现 朴素 贝 叶 斯 过 程 中 需要 考虑 的 问题 。 


4.5.1 准备 数据 ， 从 文本 中 构建 词 向 量 


我 们 将 把 文本 看 成 单词 向 量 或 者 词 条 向 量 , 也 就 是 说 将 句子 转换 为 向 量 。 考 虑 出 现在 所 有 文 
档 中 的 所 有 单词 , 再 决定 将 哪些 词 纳入 词汇 表 或 者 说 所 要 的 词汇 集合 ,然后 必须 要 将 每 一 篇 文档 
转换 为 词汇 表 上 的 向 量 。 接 下 来 我 们 正式 开始 。 打 开 文 本 编辑 器 ,创建 一 个 叫 bayes.py 的 新 文件 ， 
然后 将 下 面 的 程序 清单 添加 到 文件 中 。 


程序 清单 4-1 词 表 到 向 量 的 转换 函数 


def loadDataset () : 


postingList=[['my', 'dog', 'has', 'flea', \ 
'problems', 'help', 'please'], 
['maybe', 'not', 'take', 'him', \ 
'to', 'dog', 'park:, 'stupigd'], 
['my', 'dalmation', 'is', 'so', 'cute'’, \ 
'I', 'love', 'him'], 
['stop', ‘posting', 'stupid:!, 'worthless', 'garbage'], 
['mr', ‘licks', 'ate', 'my', !steak’'’, 'how',\ 


'to', 'stop’, ‘him']}, 








QD 朴素 贝 叶 斯 分 类 器 通常 有 两 种 实现 方式 ; 一 种 基于 贝 努 利 模型 实现 ， 一 种 基于 多 项 式 模型 实现 。 这 里 采用 前 一 种 
实现 方式 。 该 实现 方式 中 并 不 考虑 词 在 文档 中 出 现 的 次 数 ， 只 考虑 出 不 出 现 ， 因 此 在 这 个 意义 上 相当 于 假设 词 是 
等 权重 的 。4.5.4 节 给 出 的 实际 上 是 多 项 式 模型 ， 它 考虑 词 在 文档 中 的 出 现 次 数 。-_ 译 者 注 
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['quit', ‘buying', 'worthless', 'dog', 'food', 'stupid']]} 
classVec = [0,1,0,1,0,1] #1 代表 侮 每 性 文字 ，0 代 表 正 常言 论 


return PostingDist,classVec 
:0 创建 一 个 空 集 


”四 区 建 两 个 集合 的 并 集 


def createVocabList (dataset): 
vocabset = set([]) 
for document in dataSet: 
VocabSet = vocabset | set (document) 
return list (vocabSet) 


def setOfWords2Vec (vocabList, inputSset): 
returnVec = [0]*ien (vocabList) 
for word in inputSet: 
if word in vocabList: 
returnVec[vocabList.index{(word)] = 1 
else: print "the word: ss is not in my Vocabulary!" % word 
return returnVec 


第 一 个 函数 1oadpatagset () 创建 了 一 些 实验 样本 。 该 函数 返回 的 第 一 个 变量 是 进行 词 条 切 
分 后 的 文档 集合 , 这 些 文档 来 自 斑点 犬 爱好 者 留言 板 。 这 些 留言 文本 被 切 分 成 一 系列 的 词 条 集合 ， 
标点 符号 从 文本 中 去 掉 ， 后 面 会 探讨 文本 处 理 的 细节 。1oadDataset ( ) 函数 返回 的 第 二 个 变量 
是 一 个 类 别 标签 的 集合 。 这 里 有 两 类 ,侮辱 性 和 非 侮 硬性 。 这 些 文本 的 类 别 由 人 工 标 注 ， 这 些 标 
注 信息 用 于 训练 程序 以 便 自动 检测 侮辱 性 留言 。 

下 一 个 函数 createVocabList () 会 创建 一 个 包含 在 所 有 文档 中 出 现 的 不 重复 词 的 列表 ， 为 
此 使 用 了 Python 的 set 数 据 类 型 。 将 词 条 列表 输 给 set 构 造 函 数 ，set 就 会 返回 一 个 不 重复 词 表 。 
首先 ,创建 一 个 空 集合 @， 然 后 将 每 篇 文档 返回 的 新 词 集合 添加 到 该 集合 中 @。 操 作 符 | 用 于 求 
两 个 集合 的 并 集 ， 这 也 是 一 个 按 位 或 (oR ) 操作 符 ( 参见 附录 C )。 在 数学 符号 表示 上 ， 按 位 或 
操作 与 集合 求 并 操作 使 用 相同 记号 。 

获得 词汇 表 后 , 便 可 以 使 用 函数 setofwordas2vec () , 该 函数 的 输入 参数 为 词汇 表 及 某 个 文 
档 , 输出 的 是 文档 向 量 , 向 量 的 每 一 元 素 为 1 或 0, 分 别 表 示 词 汇 表 中 的 单词 在 输入 文档 中 是 否 出 
现 。 函 数 首先 创建 一 个 和 词汇 表 等 长 的 向 量 ， 并 将 其 元 素 都 设置 为 0@。 接 着 ， 凯 历 文档 中 的 所 
有 单词 ， 如 果 出 现 了 词汇 表 中 的 单词 ， 则 将 输出 的 文档 向 量 中 的 对 应 值 设 为 1。 一 切 都 顺利 的 话 ， 
就 不 需要 检查 某 个 词 是 否 还 在 vocabList 中 ， 后 边 可 能 会 用 到 这 一 操作 。 

现在 看 一 下 这 些 函数 的 执行 效果 ， 保 存 baves .py 文件 ， 然 后 在 Python 提示 符 下 输入 ， 

= bayes.1oadDataSet (} 


>>> myVocabList = bayes.createVocabList (listOPosts) 
>>> myVocabList 


8。 创建 一 个 其 中 所 含 元 素 都 为 0 的 向 量 


['cute', 'love', 'help', 'garbage', 'quit', 'I', 'problems', 'is', 'park’', 
'stop', 'flea', 'dalmation', :licks', 'food', 'not', 'him’, 'buyding'+ ， 
'posting', 'has’, 'worthless', 'ate', ‘to', 'maybe', 'please', 'dog', 
'how', 'stupid', 'so', 'take', 'mr', 'steak', ‘my'] 


检查 上 述 词 表 ,就 会 发 现 这 里 不 会 出 现 重复 的 单词 。 目 前 该 词 表 还 没有 排序 , 需要 的 话 ， 稍 
后 可 以 对 其 排序 。 
下 面 看 一 下 画 数 setofwords2Vec () 的 运行 效果 ; 


i 
4 | 
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>>> bayes .setOfWords2Vec (myVocabList，1istOPosts [0] ) 

[0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 
0, 0, 0, 0, 0, 0, 1] 

>>> bayes.setOfWords2Vec (myVocabList, listOPosts{3]) 

[0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 
0, 1, 0, 0, 0, 0, 0] 


” ”该 函数 使 用 词汇 表 或 者 想 要 检查 的 所 有 单词 作为 输入 ， 然 后 为 其 中 每 一 个 单词 构建 一 个 特 
征 。 一 旦 给 定 一 篇 文档 (斑点 犬 网 站 上 的 一 条 留言 )， 该 文档 就 会 被 转换 为 词 向 量 。 接 下 来 检查 
一 下 函数 的 有 效 性 。myvocabList 中 索引 为 2 的 元 素 是 什么 单词 ? 应 该 是 单词 help。 该 单词 在 第 
一 篇 文档 中 出 现 ， 现 在 检查 一 下 看 看 它 是 否 出 现在 第 四 篇 文档 中 。 


4.5.2 ”训练 算法 ， 从 词 向 量 计算 概率 


前 面 介绍 了 如 何 将 一 组 单词 转换 为 一 组 数字 , 接 下 来 看 看 如 何 使 用 这 些 数字 计算 概率 。 现 在 
已 经 知道 一 个 词 是 否 出 现在 一 篇 文档 中 ， 也 知道 该 文档 所 属 的 类 别 。 还 记得 3.2 节 提 到 的 贝 叶 斯 
准则 ? 我 们 重 写 贝 叶 斯 准则 ， 将 之 前 的 x、y 替换 为 mw。 粗 体 w 表 示 这 是 一 个 向 量 ， 即 它 由 多 个 数 
值 组 成 。 在 这 个 例子 中 ， 数 值 个 数 与 词汇 表 中 的 词 个 数 相同 。 

PCY1c)P(C) 

p(w) . 

我 们 将 使 用 上 述 公 式 , 对 每 个 类 计算 该 值 ,然后 比较 这 两 个 概率 值 的 大 小 。 如 何 计算 呢 ? 首 
先 可 以 通过 类 别 i (侮辱 性 留言 或 非 侮辱 性 留言 ) 中 文档 数 除 以 总 的 文档 数 来 计算 概率 p (c,)。 接 
下 来 计算 p (w|c,) ， 这 里 就 要 用 到 朴素 贝 叶 斯 假设 。 如 果 将 w 展 开 为 一 个 个 独立 特征 ， 那 么 就 可 
以 将 上 述 概率 写作 p (ww ww . .w,| ci)。 这 里 假设 所 有 词 都 互相 独立 , 该 假设 也 称 作 条 件 独立 性 
假设 , 它 意味 着 可 以 使 用 p (w,|c,)p(w,| ci)p(w,|c,) .. .p(w,|c,) 来 计算 上 述 概 率 ， 这 就 极 大 地 
简化 了 计算 的 过 程 。 

该 函数 的 伪 代 码 如 下 : 

计算 每 个 类 别 中 的 文档 数目 

对 每 篇 训练 文档 : 

对 每 个 类 别 : 
如 果 词 条 出 现 文档 中 一 增加 该 词 条 的 计数 值 
增加 所 有 词 条 的 计数 值 
对 每 个 类 别 : 
对 每 个 词 条 ; 
将 该 词 条 的 数目 除 以 总 词 条 数目 得 到 条 件 概率 
返回 每 个 类 别 的 条 件 概率 

我 们 利用 下 面 的 代码 来 实现 上 述 伪 码 。 打 开 文本 编辑 器 ， 将 这 些 代码 添加 到 bayes .py 文件 
中 。 该 函数 使 用 了 NumPy 的 一 些 图 数 ， 故 应 确保 将 from numpy import * 语 句 添 加 到 bayes .py 
文件 的 最 前 面 。 


Pp(ci1w)= 
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程序 清单 4-2 ”朴素 贝 叶 斯 分 类 器 训练 函数 


def trainNB0 (trainMatrix,trainCategory): 

numTrainDocs = len(trainMatrix) 

” numWords = len(trainMatrix[0]) 
PRbusive = sum(trainCategory) /float (numTrainDocs) 
PONum = zeros (numWords); pliNum = zeros (numWords) | 局 化 概率 
poODenom = 0.0; plDenom = 0.0 
for i in range (numTrainDocs): 

if trainCategory[i] == 1: 


plNum += trainMatrix[i] | 局 i 


plDenom += sum(trainMatrix[i]) 
else: 
PONum += trainMatrix[i] 
poDenom += sum(trainMatrix [i]) 
plVect = plNum/piDenom #change to log() 
poOVect = pONum/p0Denom #change to 1og1() 
return pOVect,plVect,pAbusive 


代码 函数 中 的 输入 参数 为 文档 矩阵 tzainMatrix， 以 及 由 每 篇 文档 类 别 标签 所 构成 的 向 量 
trainCategory。 首先 , 计算 文档 属于 侮辱 性 文档 (class=1 ) 的 概率 ， 即 P(1) 。 因 为 这 是 一 个 二 
类 分 类 问题 ， 所 以 可 以 通过 1-P(1) 得 到 P(0) 。 对 于 多 于 两 类 的 分 类 问题 ， 则 需要 对 代码 稍 加 修改 。 

计算 p (w,|c,) 和 p (w,|c。) ,需要 初始 化 程序 中 的 分 子 变 量 和 分 母 变量 @。 由 于 w 中 元 案 如 此 
众多 , 因此 可 以 使 用 NumPy 数 组 快速 计算 这 些 值 。 上 述 程序 中 的 分 母 变量 是 一 个 元 素 个 数 等 于 词 
汇 表 大 小 的 NumPy 数 组 。 在 for 循 环 中 , 要 遍历 训练 集 trainMatrix 中 的 所 有 文档 。 一 旦 某 个 词 
语 (侮辱 性 或 正常 词语 ) 在 某 一 文档 中 出 现 ， 则 该 词 对 应 的 个 数 〔 plNum 或 者 po0Num ) 就 加 1， 
而 且 在 所 有 的 文档 中 ， 该 文档 的 总 词 数 也 相应 加 1@@。 对 于 两 个 类 别 都 要 进行 同样 的 计算 处 理 。 

最 后 ， 对 每 个 元 素 除 以 该 类 别 中 的 总 词 数 @@。 利 用 NymPy 可 以 很 好 实现 ,用 一 个 数组 除 以 浮 
点 数 即 可 ， 若 使 用 常规 的 Python 列 表 则 难以 完成 这 种 任务 , 读者 可 以 自己 尝试 一 下 。 最后， 函数 
会 返回 两 个 向 量 和 一 个 概率 。 

接 下 来 试验 一 下 。 将 程序 清单 4-2 中 的 代码 添加 到 bayes,py 文 件 中 ， 在 Python 提示 符 下 输入 ， 


>>> from numpy import * 

>>> reload (bayes) 

<module '‘'bayes' from 'bayes.py'> 

>>> listOPosts,1listClasses = bayes.loadDataset () 


该 语句 从 预先 加 载 值 中 调和 人 数据 。 
>>> myVocabList = bayes.createVocabList (1istOpPosts) 


至 此 我 们 构建 了 一 个 包含 所 有 词 的 列表 myVocabList。 
>>> trainMat=[] 
>>> for postinDoc in listOPosts: 
- trainMat .append (bayes .setOfWords2Vec (myVocabList, postinDoc)) 


‘68 对 每 个 元 素 做 除法 


该 for 循 环 使 用 词 向 量 来 填充 trainMat 列 表 。 下 面 给 出 属于 侮辱 性 文档 的 概率 以 及 两 个 类 别 的 
概率 向 量 。 


>>> P0V,P1LIV,PRAb=bayes .trainNB0 (trainMat, listClasses) 
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接 下 来 看 这 些 变量 的 内 部 值 : 
>>> PRAb 0.8 
0.5 
这 就 是 任意 文档 属于 侮辱 性 文档 的 概率 。 3 
>>> 0.4 
0.04166667, 0.04166667, 0.04166667, 0. : 0. 
0.04166667， 0， 0.04166667， 0. 0.04166667， 0.86 5 05 03 04 
0.04166667, 0.125 1}) 0 ， _ X 本 
>>> plV 
array([ 0. 1 0; ， 0. 0.05263158, 0.05263158, _0.5 
2 -1.0 
0 . : 0.15789474, 0. 0.05263158, 0. 芝 _1.5 
0 ， 0 ] ) 三 
首先 ， 我 们 发 现 文档 属于 侮辱 类 的 概率 pab 为 0.5， 该 值 是 正确 的 。 接 下 来 ， 看 一 看 在 给 定 文 > 
档 类 别 条 件 下 词汇 表 中 单词 的 出 现 概率 ,看 看 是 否 正确 。 词 汇 表 中 的 第 一 个 词 是 cute, 其 在 类 别 0 -3 
中 出 现 1 次 ， 而 在 类 别 1 中 从 未 出 现 。 对 应 的 条 件 概率 分 别 为 0.041 666 67 与 0.0。 该 计算 是 正确 的 。 965 0 0.2 0.3 04 


我 们 找 找 所 有 概率 中 的 最 大 值 ， 该 值 出 现在 P (1) 数 组 第 21 个 下 标 位 置 ， 大 小 为 0.157 894 74。 在 
myVocabList 的 第 26 个 下 标 位 置 上 可 以 查 到 该 单词 是 stupid。 这 意 昧 着 stupid 是 最 能 表征 类 别 1( 侮 
辱 性 文档 类 ) 的 单词 。 


图 4-4 ”函数 f(x) 与 In (f(x) ) 会 一 块 增 大 。 这 表明 想 求 函 数 的 最 大 值 时 ， 可 以 使 用 该 


函数 的 自然 对 数 来 蔡 换 原 函 数 进行 求解 





现在 已 经 准备 好 构建 完整 的 分 类 器 了 。 当 使 用 NumPy 向 量 处 理 功能 时 , 这 一 切 变 得 十 分 简单 。 
打开 文本 编辑 器 ， 将 下 面 的 代码 添加 到 bayes.py 中 ， 


程序 清单 4-3 ”朴素 贝 叶 斯 分 类 函数 


def classifyNB{(vec2Classify, pOVec, plVec, pClass1): 


使 用 该 函数 进行 分 类 之 前 ， 还 需 解 决 函数 中 的 一 些 缺 陷 。 
4.5.3 ”测试 算法 : 根据 现实 情况 修改 分 类 器 





利用 贝 叶 斯 分 类 器 对 文档 进行 分 类 时 , 要 计算 多 个 概率 的 乘积 以 获得 文档 属于 某 个 类 别 的 概 
率 ， 即 计算 p(w。|1)p (w,|1)p (w,|1)。 如 果 其 中 一 个 概率 值 为 0, 那么 最 后 的 乘积 也 为 0。 为 降低 
这 种 影响 ， 可 以 将 所 有 词 的 出 现 数 初 始 化 为 1， 并 将 分 母 初始 化 为 2。 

在 文本 编辑 器 中 打开 bayes.py 文 件 ， 并 将 ErainNB0 () 的 第 4 行 和 第 5 行 修改 为 : 


pONum = ones (numWords) ; plNum = ones (numWords) 
poDenom = 2.0; plDenom = 2.0 


另 一 个 遇 到 的 问题 是 下 溢出 ， 这 是 由 于 太 多 很 小 的 数 相 乘 造成 的 。 当 计算 乘积 
_p(wslcJptwlc)p(twlc) .pwlc) 时 ， 由 于 大 部 分 因子 都 非常 小 所 以 程序 会 下 溢出 或 者 
得 到 不 正确 的 答案 。( 读者 可 以 用 Python 尝试 相 乘 许多 很 小 的 数 ， 最 后 四 含 五 人 后 会 得 到 0。) 一 
种 解决 办 法 是 对 乘积 取 自 然 对 数 。 在 代数 中 有 ln (ax*b) = ln(a)+ln(b) ， 于 是 通过 求 对 数 可 以 
避免 下 溢出 或 者 浮 点 数 伟人 导致 的 错误 。 同 时 ， 采 用 自然 对 数 进行 处 理 不 会 有 任何 损失 。 图 4-4 
给 出 函数 £ (x) 与 In(E(x) ) 的 曲线 。 检 查 这 两 条 曲线 ， 就 会 发 现 它们 在 相同 区 域内 同时 增加 或 者 
减少 ， 并 且 在 相同 点 上 取 到 极 值 。 它 们 的 取 值 虽然 不 同 ， 但 不 影响 最 终结 果 。 通 过 修改 return 
前 的 两 行 代码 ， 将 上 述 做 法 用 到 分 类 器 中 : 


plVect = log (plNum/pliDenom) 
pOVect = log (pONum/p0Denom) 





pl =. sum(vec2Classify * plVec) + log(pClass!1) 
P0 = sum(vec2Classify * pOVec) + log(1.0 - pClass1) 
if pl > po0: 
return 1 
else: 
return 0 


testingNB(): 
listOPosts,listClasses = loadDataSet () 
myVocabList = createVocabList (listOPosts) 
trainMat=[] 
for postinDoc in listOPosts: 
trainMat .append (setOfWords2Vec (myVocabList, postinDoc)) 
POV,PpiV,pAb = trainNB0 (array (trainMat),array (listClasses)) 


四 nin 


testEntry = ['love', 


'my', 


i'dalmation'] 


thisDoc = array (setOofWords2Vec {myVocabList, testEntry)) 
print testEntry,'classified as: ',classifyNB (thisDoc,pOV,p1V,pAb) 


testEntry = ['stupid', 


1garbage '] 


thisDoc = array (setOfWords2Vec (myVocabList, testEntry)) 


print testgEritry,'classified as: 


程序 清单 4-3 的 代码 有 4 个 输入 ， 要 分 类 的 向 量 vec2classify 以 及 使 用 函数 trainNB0() 计 





',classifyNB (thisDoc, pOV,p1V, pAb) 
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算得 到 的 三 个 概率 。 使 用 NumPy 的 数组 来 计算 两 个 向 量 相 乘 的 结果 @@。. 这 里 的 相 乘 是 指 对 应 元 素 
相 乘 ， 即 先 将 两 个 向 量 中 的 第 1 个 元 素 相 乘 ， 然 后 将 第 2 个 元 素 相 乘 ， 以 此 类 推 。 接 下 来 将 词汇 表 
中 所 有 词 的 对 应 值 相 加 ， 然 后 将 该 值 加 到 类 别 的 对 数 概率 上 。 最 后 ， 比 较 类 别 的 概率 返回 大 概率 
对 应 的 类 别 标签 。 这 一 切 不 是 很 难 ， 对 吧 ? 

代码 的 第 二 个 函数 是 一 个 便利 函数 (convenience function ), 该 函数 封 装 所 有 操作 ， 以 节省 输 
人 4.3.1 节 中 代码 的 时 间 。 

下 面 来 看 看 实际 结果 。 将 程序 清单 4-3 中 的 代码 添加 之 后 ， 在 Python 提示 符 下 输入 : 


>>> reload {bayes) 

<module 'bayes' from 'bayes.pyc'> 

>>>bayes .testingNB () 

['love', 'my', ‘'dalmation’] classified as: 0 
['stupid', 'garbage'] classified as: 1 


对 文本 做 一 些 修改 , 看 看 分 类 器 会 输出 什么 结果 。 这 个 例子 非常 简单 ,但 是 它 展示 了 朴素 贝 
叶 斯 分 类 器 的 工作 原理 。 接 下 来 ， 我 们 会 对 代码 做 些 修改 ， 使 分 类 器 工作 得 更 好 。 


4.5.4 ”准备 数据 :文档 词 袋 模型 


目前 为 止 ， 我 们 将 每 个 词 的 出 现 与 否 作为 一 个 特征 , 这 可 以 被 描述 为 词 集 模型 ( set-of-words 
model )。 如 果 一 个 词 在 文档 中 出 现 不 止 一 次 , 这 可 能 意味 着 包含 该 词 是 否 出 现在 文档 中 所 不 能 表 
达 的 某 种 信息 ， 这 种 方法 被 称 为 词 袋 模型 (bag-of-words model )。 在 词 袋 中 ， 每 个 单词 可 以 出 现 
多 次 ， 而 在 词 集中 ， 每 个 词 只 能 出 现 一 次 。 为 适应 词 袋 模型 ,需要 对 函数 setofWords2vVec () 
稍 加 修改 ， 修 改 后 的 函数 称 为 bpagofWwords2vVec ()。 

下 面 的 程序 清单 给 出 了 基于 词 袋 模型 的 朴素 贝 叶 斯 代码 。 它 与 站 () 几 乎 
完全 相同 ， 唯 一 不 同 的 是 每 当 遇 到 一 个 单词 时 ， 它 会 增加 词 向 量 中 的 对 应 值 ， 而 不 只 是 将 对 应 的 
数值 设 为 1。 


程序 清单 4-4 ”朴素 贝 叶 斯 词 袋 模型 


def bagOfWords2VecMN (vocabList，inputSet) : 
returnVec = [0]x*len(vocabDist) 
for word in inputSet : 
if word in vocabList: 
returnVec{[vocabList.index(word)] += 1 
return returnVec 


现在 分 类 器 已 经 构建 好 了 ， 下 面 我 们 将 利用 该 分 类 器 来 过 滤 垃 圾 邮件 。 


4.6 示例 : 使 用 朴素 贝 叶 斯 过 滤 垃 圾 邮件 


在 前 面 那个 简单 的 例子 中 ,我 们 引入 了 字符 种 列 表 。 使 用 朴素 贝 叶 斯 解决 一 些 现实 生活 中 
的 问题 时 ， 需 要 先 从 文本 内 容 得 到 字符 串 列表 ， 然 后 生成 词 向 量 。 下 面 这 个 例子 中 ,. 我 们 将 了 
解 朴素 贝 叶 斯 的 一 个 最 著名 的 应 用 : 电子 邮件 垃圾 过 滤 。 首 先 看 一 下 如 何 使 用 通用 框架 来 解决 
该 问题 。 
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| 示例 ， 使 用 朴素 贝 叶 斯 对 电子 邮件 进行 分 类 。 “ 0 1 
(1) 收集 数据 :提供 文本 文件 。 
(2) 准备 数据 : 将 文本 文件 解析 成 词 条 向 量 。 

(3) 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

(4) 训练 算法 ; 使 用 我 们 之 前 建立 的 trainNB0 () 函数 。 

(5) 测试 算法 : 使 用 classifyNB()， 并 且 构 建 一 个 新 的 测试 函数 来 计算 文档 集 的 错误 率 。 
(6) 使 用 算法 ;构建 一 个 完整 的 程序 对 一 组 文档 进行 分 类 ， 将 错 分 的 文档 输出 到 屏幕 上 。 


下 面 首先 给 出 将 文本 解析 为 词 条 的 代码 。 然 后 将 该 代码 和 前 面 的 分 类 代码 集成 为 一 个 函数 ， 
该 函数 在 测试 分 类 器 的 同时 会 给 出 错误 率 。 


4.6.1 ”准备 数据 切 分 文本 


前 一 节 介绍 了 如 何 创建 词 向 量 , 并 基于 这 些 词 向 量 进行 朴素 贝 叶 斯 分 类 的 过 程 。 前 一 节 中 的 
词 向 量 是 预先 给 定 的 ， 下 面 介绍 如 何 从 文本 文档 中 构建 自己 的 词 列 表 。 

对 于 一 个 文本 字符 串 ， 可 以 使 用 Python 的 string .split () 方 法 将 其 切 分 。 下 面 看 看 实际 的 
运行 效果 。 在 Python 提示 符 下 输入 : 

>>> mySent='This book is the best book on Python or M.L. I have ever laid 

ww eyes upon.'! 

>>> mySent .split () 

['This', 'book', 'is', 'the’'’, ‘best', 'book', 'on', 'Python’:, 'or', 'M.L.,', 

'I', 'have', 'ever', 'laid', 'eyes', 'upon.'] 

可 以 看 到 ， 切 分 的 结 吉 果 不 错 , 但 是 标点 符号 也 被 当成 了 词 的 一 部 分 。 可 以 使 用 正则 表示 式 来 切 分 
句子 ， 其 中 分 隔 符 是 除 单词 、 数 字 外 的 任意 字符 串 。 

>>> import re 

>>> regEx = re.compile('\\W*') 

>>> listOfTokens = regEx.split (mySent) 

>>> listOfTokens 

['This', 'book', 'is', 'the', 'best', 'book', ‘on', 'Python', 'or', 'M', 

TD '', 'I', 'have', 'ever', 'laid', 'eyes', 'upon', ''] 


现在 得 到 了 一 一 系列 词组 成 的 词 表 ， 但 是 里 面 的 空 字符 申 需要 去 挤 。 可 以 计算 每 个 字符 串 的 长 度 ， 
只 返回 长 度 大 于 0 的 字符 串 。 

>>> [tok for tok in listOfTokens if len(tok) > 0] 
最 后 ， 我 们 发 现 句子 中 的 第 一 个 单词 是 大 写 的 。 如 果 目 的 是 句子 查找 ， 那 么 这 个 特点 会 很 有 用 。 
但 这 里 的 文本 只 看 成 词 袋 ， 所 以 我 们 希望 所 有 词 的 形式 都 是 统一 的 ， 不 论 它 们 出 现在 句子 中 间 、 
结尾 还 是 开头 。 

Python 中 有 一 些 内 骨 的 方法 , 可 以 将 字符 串 全 部 转换 成 小 写 ( .lower () ) 或 者 大 写 ( .upper() )， 
民 助 这 些 方 法 可 以 达到 目的 。 于 是 ， 可 以 进行 如 下 处 理 ; 


>>> [tok.lower() for tok :in listOfTokens if len(tok) > 0] 
{'this', ‘book', 'is', 'the', 'best!, 'book',.'on', 'python', 'or', 'm', 
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1 ， ‘'have', ‘'ever'!, 'laid', 'eyes', 'upon'] 
现在 来 看 数据 集中 一 封 完 整 的 电子 邮件 的 实际 处 理 结果 。 该 数据 集 放 在 email 文 件 夹 中 ， 该 
文件 夹 又 包含 两 个 子 文 件 夹 ， 分 别 是 spam 与 ham。 


>>> emailText = open('email/ham/6.txt').read() 
>>> listOfTokens=regEx.split (emailText) 


文件 夹 ham 下 的 6.txt 文 件 非常 长 ， 这 是 某 公司 告知 我 他 们 不 再 进行 某 些 支持 的 一 封 邮件 。 需 
要 注意 的 是 ， 由 于 是 URL: answer.py?hl=en&answer=174623 的 一 部 分 ， 因 而 会 出 现 en 和 py 这 样 的 
单词 。 当 对 URL 进 行 切 分 时 ， 会 得 到 很 多 的 词 。 我 们 是 想 去 掉 这 些 单词 ， 因 此 在 实现 时 会 过 滤 掉 
长 度 小 于 3 的 字符 串 。 本 例 使 用 一 个 通用 的 文本 解析 规则 来 实现 这 一 点 。 在 实际 的 解析 程序 中 ， 
要 用 更 高 级 的 过 滤器 来 对 诸如 HTML 和 URI 的 对 象 进行 处 理 。 目 前 ， 一 个 URI 最 终 会 解析 成 词汇 
表 中 的 单词 ， 比 如 www.whitehouse.gov 会 被 解析 为 三 个 单词 。 文本 解析 可 能 是 一 个 相当 复杂 的 过 
程 。 接 下 来 将 构建 一 个 极其 简单 的 函数 ， 你 可 以 根据 情况 自行 修改 。 


4.6.2 ”测试 算法 : 使 用 朴素 贝 叶 斯 进行 交叉 验证 


下 面 将 文本 解析 器 集成 到 一 个 完整 分 类 器 中 。 打 开 文本 编辑 器 , 将 下 面 程序 清单 中 的 代码 添 
加 到 bayes.py 文 件 中 。 


程序 清单 4-5 文件 解析 及 完整 的 垃圾 邮件 测试 函数 


def textparse (bigSstring): 
import re 
listOfTokens = re.split(r'\W*!'!, bigstring) 
return [tok.lower() for tok in listOfTokens if len(tok) > 2] 


def spamTest () : 
docList=[]; classList = []; fullText ={] 
. for i in range(1,26): 

wordList = textparse (open('email/spam/%d.txt' % i).read()) 
docList .append (wordList) 
fullText .extend (wordList) 
classList.append (1) 
wordList = textparse (open('email/ham/%d.txt' % i).read()) 
docList .append (wordList) 
fulilText .extend (wordList) 导入 并 解析 文本 文件 
classList .append (0) 

vocabList = createVocabList (docList) 

trainingSet = range(50); testSet=[] 


for i in range(10): 
训练 
randIndex = int{(random.uniform(0,1en(trainingset))) . 随机 构建 训练 集 


testSet .append (trainingSet [randIindex]) 
del (trainingSet [randIndex]) 
trainMat=[]; trainClasses = [] 
for docIndex in trainingSet : 
trainMat .append (setOfWords2Vec (vocabList, docList [docIindex] ) ) 
trainClasses.append (classList {docIndex]) 
pOV,p1V,pSpam = trainNBo0 (array (trainMat) ,array (trainClasses)) 
errorCount = 0 
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for docIindex in testSet : 

wordVector = setOfWords2Vec{vocabList, docList [docIndex]) 

if classifyNB (array (wordVector) ,pOV,p1V, pSpam) 三 
classList [docIndex]: 对 测试 集 分 类 


errorCount += 1 
print 'the error rate is: ',float(errorCount)/len(testSet) 


第 一 个 函数 textParse () 接受 一 个 大 字符 串 并 将 其 解析 为 字符 串 列 表 。 该 函数 去 掉 少 于 两 
个 字符 的 字符 串 ， 并 将 所 有 字符 串 转换 为 小 写 。 你 可 以 在 函数 中 添加 更 多 的 解析 操作 ,但 是 目前 
的 实现 对 于 我 们 的 应 用 足够 了 。 

第 二 个 函数 spamrest () 对 贝 叶 斯 垃圾 邮件 分 类 器 进行 自动 化 处 理 。 导 入 文件 夹 spam 与 ham 
下 的 文本 文件 ,并 将 它们 解析 为 词 列表 @。 接 下 来 构建 一 个 测试 集 与 一 个 训练 集 , 两 个 集合 中 的 
邮件 都 是 随机 选 出 的 。 本 例 中 共有 50 封 电子 邮件 ,并 不 是 很 多 ， 其 中 的 10 封 电子 邮件 被 随机 选择 
为 测试 集 。 分 类 器 所 需要 的 概率 计算 只 利用 训练 集中 的 文档 来 完成 。Python 变 量 trainingset 
是 一 个 整数 列表 ， 其 中 的 值 从 0 到 49。 接 下 来 ， 随 机 选择 其 中 10 个 文件 @。 选 择 出 的 数字 所 对 应 
的 文档 被 添加 到 测试 集 ， 同 时 也 将 其 从 训练 集中 剔除 。 这 种 随机 选择 数据 的 一 部 分 作为 训练 集 ， 
而 剩余 部 分 作为 测试 集 的 过 程 称 为 留存 交叉 验证 (hold-out cross validation )。 假 定 现在 只 完成 了 
一 次 迭代 ， 那 么 为 了 更 精确 地 估计 分 类 器 的 错误 率 ， 就 应 该 进行 多 次 迭代 后 求 出 平均 错误 率 。 

接 下 来 的 for 循 环 遍历 训练 集 的 所 有 文档 ， 对 每 封 邮件 基于 词汇 表 并 使 用 setofwords2vec () 
函数 来 构建 词 向 量 。 这 些 词 在 trainaNB0 () 函数 中 用 于 计算 分 类 所 需 的 槛 率 。 然 后 遍历 测试 集 ， 
对 其 中 每 封 电 子 邮件 进行 分 类 合 。 如 果 邮 件 分 类 错误 , 则 错误 数 加 1， 最 后 给 出 总 的 错误 百分比 。 

下 面 对 上 述 过 程 进行 尝试 。 输 入 程序 清单 4-5 的 代码 之 后 ， 在 Python 提示 符 下 输入 

ee 

>>> bayes.spamTest () 

classification error ['home', 'based', 'business', 'opportunity', 

'knocking’', 'your', 'door', 'don', 'rude', 'and', 'let', 'this', 'chance', 

'you', ‘can', 'earn', 'great', 'income', 'and', 'find', 'your', 

‘financial', 'life', 'transformed', 'learn', 'more', 'here', 'your!, 


'success', 'work', 'from', 'home', 'finder', 'experts'] 
the error rate is: 0.1 


函数 spamTest () 会 输出 在 10 封 随机 选择 的 电子 邮件 上 的 分 类 错误 率 。 既 然 这 些 电 子 邮 件 
是 随机 选择 的 ， 所 以 每 次 的 输出 结果 可 能 有 些 差别 。 如 果 发 现 错误 的 话 ， 函 数 会 输出 错 分 文 
档 的 词 表 ， 这 样 就 可 以 了 解 到 底 是 哪 篇 文档 发 生 了 错误 。 如 果 想 要 更 好 地 估计 错误 率 ， 那 么 
就 应 该 将 上 述 过 程 重复 多 次 ， 比 如 说 10 次 ， 然 后 求 平均 值 。 我 这 么 做 了 一 下 ， 效 得 的 平均 错 
误 率 为 6%。 

这 里 一 直 出 现 的 错误 是 将 垃圾 邮件 误 判 为 正常 邮件 。 相 比 之 下 , 将 垃圾 邮件 误 判 为 正常 邮件 
要 比 将 正常 邮件 归 到 垃圾 邮件 好 。 为 避免 错误 ， 有 多 种 方式 可 以 用 来 修正 分 类 器 ， 这 些 将 在 第 7 
章 中 进行 讨论 。 

目前 我 们 已 经 使 用 朴素 贝 叶 斯 来 对 文档 进行 分 类 , 接 下 来 将 介绍 它 的 另 一 个 应 用 。 下 一 个 例 
子 还 会 给 出 如 何 解 释 朴 素 贝 叶 斯 分 类 器 训练 所 得 到 的 知识 。 
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4.7 示例 : 使 用 朴素 贝 叶 斯 分 类 器 从 个 人 广告 中 获取 区 域 倾向 


本 章 的 最 后 一 个 例子 非常 有 趣 。 我 们 前 面 介 绍 了 朴素 贝 叶 斯 的 两 个 实际 应 用 的 例子 ,第 一 个 
例子 是 过 滤 网 站 的 恶意 留言 ， 第 二 个 是 过 滤 垃 圾 邮件 。 分 类 还 有 大 量 的 其 他 应 用 。 我 曾经 见 过 有 
人 使 用 朴素 贝 叶 斯 从 他 喜欢 及 不 喜欢 的 女性 的 社交 网 络 档案 学 习 相应 的 分 类 器 , 然后 利用 该 分 类 
器 测试 他 是 否 会 喜欢 一 个 陌生 女人 。 分 类 的 可 能 应 用 确实 有 很 多 ， 比 如 有 证 据 表示 ， 人 的 年 龄 越 
大 ， 他 所 用 的 词 也 越 好 。 那么 ,可 以 基于 一 个 人 的 用 词 来 推测 他 的 年 龄 吗 ? 除了 年 龄 之 外 ,还 能 
否 推测 其 他 方面 ? 广告 商 往往 想 知 道 关于 一 个 人 的 一 些 特定 人 口 统计 信息 , 以 便 能 够 更 好 地 定向 
推销 广告 。 从 哪里 可 以 获得 这 些 训练 数据 呢 ? 事实 上 , 互联 网 上 拥有 大 量 的 训练 数据 。 几 乎 任 一 
个 能 想到 的 利 基 市 场 " 都 有 专业 社区 ， 很 多 人 会 认为 自己 属于 该 社区 。4.3.1 节 中 的 斑点 犬 爱好 者 
网 站 就 是 一 个 非常 好 的 例子 。 

在 这 个 最 后 的 例子 当中 , 我 们 将 分 别 从 美国 的 两 个 城市 中 选取 一 些 人 , 通过 分 析 这 些 人 发 布 的 
征婚 广告 信息 , 来 比较 这 两 个 城市 的 人 们 在 广告 用 词 上 是 否 不 同 。 如 果 结 论 确实 是 不 同 , 那么 他 们 
各 自 常用 的 词 是 哪些 ?从 人 们 的 用 词 当 中 ， 我 们 能 否 对 不 同城 市 的 人 所 关心 的 内 容 有 所 了 解 ? 





Se 示例; “使 用 林 素 贝 叶 斯 来 发 现 地 域 相 ; 2 
To 

(2) 准备 数据 : 将 文本 文件 解析 成 词 条 向 量 。 

(3) 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

(4) 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0 () 函数 。 

(5) 测试 算法 : 观察 错误 率 ， 确 保 分 类 器 可 用 。 可 以 修改 切 分 程序 ， 以 降低 错误 率 ， 提 高 





分 类 结果 。 
(6) 使 用 算法 : 构建 一 个 完整 的 程序 ， 封 装 所 有 内 容 。 给 定 两 个 RSS 源 ， 该 程序 会 显示 最 


常用 的 公共 词 。 


下 面 将 使 用 来 自 不 同城 市 的 广告 训练 一 个 分 类 器 ,然后 观察 分 类 器 的 效果 。 我 们 的 目的 并 不 
是 使 用 该 分 类 器 进行 分 类 ， 而 是 通过 观察 单词 和 条 件 概 率 值 来 发 现 与 特定 城市 相关 的 内 容 。 


4.7.1 收集 数据 : 导入 RSS 源 


接 下 来 要 做 的 第 一 件 事 是 使 用 Python 下 载 文本 。 幸 好 ， 利 用 RSS， 这 些 文本 很 容易 得 到 。 现 
在 所 需要 的 是 一 个 RSS 阅 读 器 。Universal Feed Parser 是 Python 中 最 常用 的 RSS 程 序 库 。 





Q@ 利 基 (niche ) 是 指针 对 企业 的 优势 细 分 出 来 的 市 场 ， 这 个 市 场 不 大 ， 而 且 没有 得 到 令 人 满意 的 服务 。 产 品 推进 这 
个 市 场 ， 有 盈利 的 基础 。 在 这 里 特 指针 对 性 和 专业 性 都 很 强 的 产品 。 也 就 是 说 ， 利 基 是 细 分 市 场 没有 被 服务 好 的 
群体 。 一 一 译 者 注 
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你 可 以 在 http://code.google.com/p/feedparser/ 下 浏览 相关 文档 ， 然 后 和 其 他 Python 包 一 样 来 安 
装 feedparse。 首 先 解压 下 载 的 包 ， 并 将 当前 目录 切换 到 解压 文件 所 在 的 文件 夹 ， 然 后 在 Python 提 


示 符 下 项 人 >>python setup.py install。 


下 面 使 用 Craigslist 上 的 个 人 广告 ， 当 然 希望 是 在 服务 条 款 允 许 的 条 件 下 。 打 开 Craigslist 上 的 
RSS 源 ， 在 Python 提示 符 下 输入 ; 

>>> import feedparser 

>>>ny=feedparser.parse('http://newyork.craigslist .org/stp/index.rss') 

我 决定 使 用 Craigslist 中 比较 纯洁 的 那 部 分 内 容 ， 其 他 内 容 稍 显 少 儿 不 宜 。 你 可 以 查阅 
feedparserorg 中 出 色 的 说 明文 档 以 及 RSS 源 。 要 访问 所 有 条 目的 列表 ， 输 入 ， 


>>> ny['entries'] 
>>> len(ny['entries']) 
100 


freqDict = {} 


可 以 构建 一 个 类 似 于 spamrest () 的 函数 来 对 测试 过 程 自动 化 。 打 开 文 本 编辑 器 ， 输 入 下 列 
for token in vocabList: 


程序 清单 中 的 代码 。 
旦 序 清单 4-6 ”RSS 源 分 类 器 及 高 频 词 去 除 函 数 
人 
freqDict [token] =fullText .count (token) 
sortedFreq = sorted{freqDict.iteritems(), key=operator,.itemgetter(1),\ 


def calcMostFreq (vocabList,fullText): 
import operator 
reverse=True) 
return sortedFreqgq[:30] 
def localWords (feedl,feed0) : 
import feedparser 
docList=[]; classList = []; fullText =[] 


minLen = min(len(feedi['entries']),lenl(feed0['entries'])) 
for i in range (minben) : 


wordList = textParse (feedl{['entries'] [i] ['summary']) 

docList .append (wordList) 

fullText .extend (wordList) 每 次 访问 一 
classList.append(1) 条 RSS 源 


wordList = textPparse (feed0['entries'] [i] ['summary']) 

docList .append (wordList) 

fullText .extend (wordList) 

classList .append(0) 
vocabList = createVocabList (docList) 去 掉 出 现 次 数 最 
top30Words = calcMostFreq(vocabList,fullText) 高 的 那些 词 
for pairW in top30Words: 

if pairW[0] in vocabList: vocabList.remove (pairWw[0]) 
trainingSet = range(2*minLen); testSet=[] 
for i in range(20): 

randIindex = int (random.uniform(0,1en (trainingSet))) 

testSet .append (trainingSet [randindex]) 

del (trainingset [randIndex])} 
trainMat=[]; trainClasses = [] 
for docIndex in trainingSet : 
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| trainMat .append (bagOfWords2VecMN (vocabList, docList [aocIndex] ) ) 
trainClasses.append (classList [docIndex]) 
POV,p1V,pSpam = trainNB0 (array (trainMat),array (trainClasses)) 
errorCount = 0 
， for docIindex :in testSet: 
| ， wordVector = bagOfWords2VecMN (vocabList, docList [qocInaqex] ) 
if classifyNB (array (wordVector) ,pO0OV,pliV,pSpam) != \ 
classList [docIndex]: 
errorCount += 1 
print 'the error rate is: ',float (errorCount)/len(testSet) 
return vocabList,pOV,p1lV 


| 上 述 代码 类 似 程序 清单 4-5 中 的 函数 spamTest (), 不 过 添加 了 新 的 功能 。 代 码 中 引入 了 -个 
| 辅助 函数 calcMostFreq() 人 @。 该 函数 遍历 词汇 表 中 的 每 个 词 并 统计 它 在 文本 中 出 现 的 次 数 ， 然 
后 根据 出 现 次 数 从 高 到 低 对 词典 进行 排序 ， 最 后 返回 排序 最 高 的 100 个 单词 。 你 很 快 就 会 明白 这 
个 函数 的 重要 性 。 

下 一 个 函数 localwords () 使 用 两 个 RSS 源 作为 参数 。RSS 源 要 在 函数 外 导入 ， 这 样 做 的 原 
因 是 RSS 源 会 随时 间 而 改变 。 如 果 想 通过 改变 代码 来 比较 程序 执行 的 差异 ， 就 应 该 使 用 相同 的 输 
人。 重新 加 载 RSS 源 就 会 得 到 新 的 数据 ， 但 很 难 确定 是 代码 原因 还 是 输入 原因 导致 输出 结果 的 改 
变 。 函 数 1ocalworas () 与 程序 清单 4-5 中 的 spamTest () 函数 几乎 相同 ,区别 在 于 这 里 访问 的 是 
RSS 源 全 而 不 是 文件 。 然 后 调用 函数 calcMos tFreq () 来 获得 排序 最 高 的 100 个 单词 并 随后 将 它 
们 移 除 合 。 函数 的 剩余 部 分 与 spamTest () 基本 类 似 , 不 同 的 是 最 后 一 行 要 返回 下 面 要 用 到 的 值 。 

你 可 以 注释 掉 用 于 移 除 高 频 词 的 三 行 代码 , 然后 比较 注释 前 后 的 分 类 性 能 会。 我 自己 也 尝试 
了 一 下 ， 去 掉 这 几 行 代码 之 后 ， 我 发 现 错误 率 为 54%， 而 保留 这 些 代 码 得 到 的 错误 率 为 70%。 这 
里 观察 到 的 一 个 有 趣 现象 是 ,这些 留 言 中 出 现 次 数 最 多 的 前 30 个 词 涵盖 了 所 有 用 词 的 30%。 我 在 
进行 测试 的 时 候 ，vocabList 的 大 小 约 为 3000 个 词 。 也 就 是 说 , 词汇 表 中 的 一 小 部 分 单词 却 占据 
了 所 有 文本 用 词 的 一 大 部 分 。 产 生 这 种 现象 的 原因 是 因为 语言 中 大 部 分 都 是 元 余 和 结构 辅助 性 内 
容 。 另 一 个 常用 的 方法 是 不 仅 移 除 高 频 词 ， 同 时 从 某 个 预定 词 表 中 移 除 结构 上 的 辅助 词 。 该 词 表 
称 为 停 用 词 表 ( stop word list ), 目前 可 以 找到 许多 停 用 词 表 ( 在 本 书写 作 期 间 , http://www.ranks.nl/ 
resources/stepwords.html 上 有 一 个 很 好 的 多 语言 停 用 词 列表 )。 

将 程序 清单 4-6 中 的 代码 加 入 到 bayes .py 文件 之 后 ,可 以 通过 输入 如 下 命令 在 Python 中 进行 
测试 ; 





>>> reload (bayes) 

<module 'bayes' from 'bayes.py'> 
>>>ny=feedparser.parse('http://newyork.craigslist .org/stp/index.rss') 
>>>Sf=feedparser.parse('http://sfbay.craigslist .org/stp/index.rss'!) 
>>> vocabList,pSF,PpNY=bayes .localWords (ny, sf) 

the error rate is: 0.1 

>>> vocabList,pSF,PNY=bayes .localWords (ny, sf) 

the error rate is: 0.35 


为 了 得 到 错误 率 的 精确 估计 , 应 该 多 次 进行 上 述 实 验 , 然后 取 平均 值 。 这 里 的 错误 率 要 远 高 
于 垃圾 邮件 中 的 错误 率 。 由 于 这 里 关注 的 是 单词 概率 而 不 是 实际 分 类 ， 因 此 这 个 问题 倒 不 严重 。 
可 以 通过 函数 caclMostFreq() 改 变 要 移 除 的 单词 数目 ， 然 后 观察 错误 率 的 变化 情况 。 





4.7 示例: 使 用 朴素 贝 叶 斯 分 类 器 从 个 人 广告 中 获取 区 域 倾向 ”71 


4.7.2 分 析 数 据 ， 显 示 地 域 相 关 的 用 词 


可 以 先 对 向 量 pSF 与 PNY 进 行 排序 ， 然 后 按照 顺序 将 词 打 印 出 来 。 下 面 的 最 后 一 段 代码 会 完 
成 这 部 分 工作 。 再 次 打开 bayes.py 文 件 ， 将 下 面 的 代码 添加 到 文件 中 。 


程序 清单 4-7 ”最 具 表 征 性 的 词汇 显示 函数 


def getTopWwords (ny,sf): 

import operator 
vocabList,pOV,Pp1lV=localWords (ny, sf) 
上 opNY= [] ; topSF=[] 
for i in range(len(POV) ) : 

if POV[i] > -6.0 : topSF.append( (vocabList [i] ,pOV [i])) 

if plV[i] > -6.0 : topNY.appenda((vocabLiest [i] ,pl1V[i])) 
sortedSF = sorted(topsF, key=lambda pair: pair{[1], reverse=True) 
print "SF**SF**SFr*SF*wSF#*SF**SF**SFkSFr*SFx*SEF**SF**SF**wSE** 
for item in sortedSsF: 

print item[0] 
sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True) 
print "NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY **! 
for item in sortedNY: 

print item[0] . 


程序 清单 4-7 中 的 函数 getTopwords () 使 用 两 个 RSS 源 作为 输入 ， 然 后 训练 并 测试 朴素 贝 叶 
斯 分 类 器 ， 返 回 使 用 的 概率 值 。 然 后 创建 两 个 列表 用 于 元 组 的 存储 。 与 之 前 返回 排名 最 高 的 X 个 
单词 不 同 ， 这 里 可 以 返回 大 于 某 个 阔 值 的 所 有 词 。 这 些 元 组 会 按照 它们 的 条 件 概 率 进 行 排序 。 

下 面 看 一 下 实际 的 运行 效果 ， 保 存 bayes.py 文 件 ， 在 Python 提示 符 下 输入 ， 


>>> reload (bayes) 

<module 'bayes' from 'bayes.pyc'> 

>>> bayes.getTopWwords (ny, sf) 

the error rate is: 0.2 

SF**SF* *SF* AOF**kOF**SGEF**SGF* WOF**SGF**SF**SOF* OF**wSOF**OF* wOF*kOF** 
love 

time 

will 

there 

hit 

send 

francisco 

female ， 
NY* NY* *NY* *NY* *NY**xNY* *NY* *NY* *NY* *NY* x*NY* wNY* *NY**NY* *NY* *wNY* x 
friend 

people 

will 

single 

SeX 

female 

night 

420 

relationship 

play 

hope 
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最 后 输出 的 单词 很 有 意思 。 值 得 注意 的 现象 是 ,程序 输出 了 大 量 的 停 用 词 。 移 除 固定 的 停 用 
词 看 看 结果 会 如 何 变化 也 十 分 有 趣 。 依 我 的 经 验 来 看 ， 这 样 做 的 话 ， 分 类 错误 率 也 会 降低 。 


4.8 ”本章 小 结 


对 于 分 类 而 言 , 使 用 概率 有 时 要 比 使 用 硬 规 则 更 为 有 效 。 贝 叶 斯 概率 及 贝 叶 斯 准则 提供 了 一 
种 利用 已 知 值 来 估计 未 知 概率 的 有 效 方 法 。 . 

可 以 通过 特征 之 间 的 条 件 独立 性 假设 , 降低 对 数据 量 的 需求 。 独 立 性 假设 是 指 一 个 词 的 出 现 
概率 并 不 依赖 于 文档 中 的 其 他 词 。 当 然 我 们 也 知道 这 个 假设 过 于 简单 。 这 就 是 之 所 以 称 为 朴素 由 
叶 斯 的 原因 。 尽 管 条 件 独立 性 假设 并 不 正确 ， 但 是 朴素 贝 叶 斯 仍然 是 一 种 有 效 的 分 类 器 。 

利用 现代 编程 语言 来 实现 朴素 贝 叶 斯 时 需要 考虑 很 多 实际 因素 。 下 溢出 就 是 其 中 一 个 问题 ， 
它 可 以 通过 对 概率 取 对 数 来 解决 。 词 袋 模型 在 解决 文档 分 类 问题 上 比 词 集 模型 有 所 提高 。 还 有 其 
他 一 些 方面 的 改进 ， 比 如 说 移 除 停 用 词 ， 当 然 也 可 以 花 大 量 时 间 对 切 分 器 进行 优化 。 

本 章 学 习 到 的 概率 理论 将 在 后 续 章节 中 用 到 , 另外 本 章 也 给 出 了 有 关 贝 叶 斯 概率 理论 全 面具 
体 的 介绍 。 接 下 来 的 一 章 将 暂时 不 再 讨论 概率 理论 这 一 话题 ， 介 绍 另 一 种 称 作 Logistic 回 归 的 分 
类 方法 及 一 些 优 化 算法 。 








Logistic 回 归 








本 章 内 容 

口 Sigmoid 函 数 和 Logistic 回 归 分 类 器 
口 最 优化 理论 初步 

口 梯度 下 降 最 优化 算法 

口 数据 中 的 缺失 项 处 理 


这 会 是 激动 人 心 的 一 章 ， 因 为 我 们 将 首次 接触 到 最 优化 算法 。 仔 细 想 想 就 会 发 现 ， 其实 我 们 
日 常生 活 中 遇 到 过 很 多 最 优化 问题 ， 比 如 如 何在 最 短 时 间 内 从 A 点 到 达 B 点 ?如 何 投入 最 少 工作 
量 却 获得 最 大 的 效益 ?如 何 设计 发 动机 使 得 油耗 最 少 而 功率 最 大 ? 可见， 最 优化 的 作用 十 分 强 
大 。 接 下 来 ， 我 们 介绍 几 个 最 优化 算法 ， 并 利用 它们 训练 出 一 个 非 线性 函数 用 于 分 类 。 

读者 不 熟悉 回归 也 没关系 ， 第 8 章 起 会 深入 介绍 这 一 主题 。 假 设 现在 有 一 些 数 据点 ， 我 们 用 
一 条 直线 对 这 些 点 进行 拟 合 〈 该 线 称 为 最 佳 拟 合 直线 )， 这 个 拟 合 过 程 就 称 作 回归 。 利 用 Logistic 
回归 进行 分 类 的 主要 思想 是 : 根据 现 有 数据 对 分 类 边界 线 建立 回归 公式 ， 以 此 进行 分 类 。 这 里 的 
“回归 ”一 词 源 于 最 佳 拟 合 ， 表 示 要 找到 最 佳 拟 合 参数 集 ， 其 背后 的 数学 分 析 将 在 下 一 部 分 介绍 。 
训练 分 类 融 时 的 做 法 就 是 寻找 最 佳 拟 合 参数 , 使 用 的 是 最 优化 算法 。 接 下 来 介绍 这 个 二 值 型 输出 
分 类 器 的 数学 原理 。 


“Logistic 回 归 的 一 般 过 程 a 

(1) 收集 数据 : 采用 任意 方法 收集 数据 。 

(2) 准备 数据 ， 由 于 需要 进行 距离 计算 ， 因 此 要 求 数据 类 型 为 数值 型 。 另 外 ， 结 构 化 数据 
格式 则 最 佳 。 

(3) 分 析 数 据 : 采用 任意 方法 对 数据 进行 分 析 。 

(4) 训练 算法 : 大 部 分 时 间 将 用 于 训练 ， 训 练 的 目的 是 为 了 找到 最 佳 的 分 类 回归 系数 。 

(5) 测试 算法 ; 一 旦 训练 步骤 完成 ， 分 类 将 会 很 快 。 

(6) 使 用 算法 : 首先 ， 我 们 需要 输入 一 些 数据 ， 并 将 其 转换 成 对 应 的 结构 化 数值 ; 
接着 ， 基 于 训练 好 的 回归 系数 就 可 以 对 这 些 数值 进行 简单 的 回归 计算 ， 判 定 它 们 属于 
哪个 类 别 ; 在 这 之 后 ， 我 们 就 可 以 在 输出 的 类 别 上 做 一 些 其 他 分 析 工作 。 
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本 章 首先 阐述 Logistic 回 归 的 定义 ， 然 后 介绍 一 些 最 优化 算法 ， 其 中 包括 基本 的 梯度 上 升 法 
和 一 个 改进 的 随机 梯度 上 升 法 ， 这 些 最 优化 算法 将 用 于 分 类 器 的 训练 。 本 章 最 后 会 给 出 一 个 
Logistic 回 归 的 实例 ， 预 测 一 匹 病 马 是 否 能 被 治愈 。 


5.1 基于 Logistic 回归 和 Sigmoid 函数 的 分 类 


Logistic 回 归 
优点 : 计算 代价 不 高 ， 易 于 理解 和 实现 。 
缺点 : 容易 欠 拟 合 ， 分 类 精度 可 能 不 高 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


我 们 想 要 的 函数 应 该 是 ， 能 接受 所 有 的 输入 然后 预测 出 类 别 。 例 如 ,在 两 个 类 的 情况 下 ， 上 
述 函 数 输出 0 或 1。 或 许 你 之 前 接触 过 具有 这 种 性 质 的 函数 ， 该 函数 称 为 海 维 塞 德 阶 路 函数 
( Heaviside step function )， 或 者 直接 称 为 单位 阶 路 函数。 然而 ， 海 维 塞 德 阶 跃 函 数 的 问题 在 于 : 
该 函数 在 跳 幅 点 上 从 0 瞬间 跳 晓 到 1， 这 个 瞬间 跳 贱 过 程 有 时 很 难处 理 。 幸 好 ， 另 一 个 函数 也 有 类 
似 的 性 质 ?， 目 数学 上 更 易 处 理 ， 这 就 是 Sigmoid 函 数 2。Sigmoid 函 数 具 体 的 计算 公式 如 下 : 


0 
l+e 


图 5-1 给 出 了 Sigmoid 函 数 在 不 同 坐 标尺 度 下 的 两 条 曲线 图 。 当 x 为 0 时 ，Sigmoid 函 数值 为 0.5。 
随 着 x 的 增 大 ， 对 应 的 Sigmoid 值 将 逼近 于 1; 而 随 着 x 的 减 小 ，Sigmoid 值 将 逼近 于 0。 如 果 横 坐标 
刻度 足够 大 (图 5-1 下 图 )，Sigmoid 函 数 看 起 来 很 像 一 个 阶 跃 函数 。 : 

因此 ， 为 了 实现 Logistic 回 归 分 类 器 ， 我 们 可 以 在 每 个 特征 上 都 乘 以 一 个 回归 系数 ， 然 后 把 
所 有 的 结果 值 相 加 ， 将 这 个 总 和 代 和 人 Sigmoid 函 数 中 ， 进 而 得 到 一 个 范围 在 0~1 之 间 的 数值 。 任 


. 何 大 于 0.5 的 数据 被 分 人 1 类 ， 小 于 0.5 即 被 归 人 0 类 。 所 以 ，Logistic 回 归 也 可 以 被 看 成 是 一 种 概 


率 估 计 。 
确定 了 分 类 器 的 函数 形式 之 后 ， 现 在 的 问题 变 成 了 ; 最 佳 回归 系数 "是 多 少 ? 如 何 确定 它们 
的 大 小 ? 这 些 问题 将 在 下 一 节 解 答 。 





@ 这 里 指 的 是 可 以 输出 0 或 者 1 的 这 种 性 质 。 一 一 译 者 注 

@ Sigmoid 函 数 是 一 种 阶 跃 函数 step fanction )。 在 数学 中 ， 如 果实 数 域 上 的 某 个 函数 可 以 用 半 开 区 间 上 的 指示 函数 
的 有 限 次 线性 组 合 来 表示 ， 那么 这 个 函数 就 是 阶 跃 函数。 而 数学 中 指示 函数 〈 indicator function ) 是 定义 在 某 集合 
X 上 的 函数 ， 表 示 其 中 有 了 郧 些 元 素 属于 某 一 子 集 A。 译 者 注 





@ 将 这 里 的 weight 翻译 为 “回归 系数 "， 是 为 了 与 后 面 的 局 部 加 权 线 性 回归 中 的 “权重 ”一 词 区 分 开 来 ， 在 不 会 引 
起 混淆 的 时 候 也 会 简称 为 “系数 "。 一 一 译 者 注 
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Sigmoid(x) 
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图 5-1 两 种 坐标 尺度 下 的 Sigmoid 函 数 图 。 上 图 的 横 坐 标 为 -5 到 5， 这 时 的 曲线 变化 较 


为 平滑 ; 下 图 横 坐 标的 尺度 足够 大 ,可 以 看 到 ， 在 x=0 点 处 Sigmoid 函 数 看 起 来 
很 像 阶 跃 函数 


5.2 ”基于 最 优化 方法 的 最 佳 回归 系数 确定 
Sigmoid 函 数 的 输入 记 为 z， 由 下 面 公式 得 出 ; 


2 三 WoX0 中 WX WX a de WX 
如 果 采 用 向 量 的 写法 ， 上 述 公 式 可 以 写成 z = wx， 它 表示 将 这 两 个 数值 向 量 对 应 元 素 相 乘 然后 
全 部 加 起 来 即 得 到 z 值 。 其 中 的 向 量 x 是 分 类 器 的 输入 数据 ， 向 量 w 也 就 是 我 们 要 找到 的 最 佳 参数 
(系数 ) 从 而 使 得 分 类 器 尽 可 能 地 精确 。 为 了 寻找 该 最 佳 参数 , 需要 用 到 最 优化 理论 的 一 些 知识 。 
下 面 首先 介绍 梯度 上 升 的 最 优化 方法 ， 我 们 将 学 习 到 如 何 使 用 该 方法 求 得 数据 集 的 最 佳 
参数 。 接 下 来 ， 展 示 如 何 绘制 梯度 上 升 法 产生 的 决策 边界 图 ， 该 图 能 将 梯度 上 升 法 的 分 类 效 
果 可 视 化 地 呈现 出 来 。 最 后 我 们 将 学 习 随 机 梯度 上 升 算法 ， 以 及 如 何 对 其 进行 修改 以 获得 更 
好 的 结果 。 


5.2.1 梯度 上 升 法 


我 们 介绍 的 第 一 个 最 优化 算法 叫做 梯度 上 升 法 。 梯 度 上 升 法 基于 的 思想 是 : 要 找到 某 函 数 的 
最 大 值 ， 最 好 的 方法 是 沿 着 该 函数 的 梯度 方向 探寻 。 如 果 梯 度 记 为 V ， 则 函数 £ (x,y) 的 梯度 由 
下 式 表 示 : 














76 第 5 章 Logistic 回归 








， of (x,y) 
' _| or 
| A ae 
3 
这 是 机 器 学 习 中 最 易 造 成 混淆 的 一 个 地 方 , 但 在 数学 上 并 不 难 , 需要 做 的 只 是 牢记 这 些 符号 
的 意义 。 这 个 梯度 意味 着 要 沿 x 的 方向 移动 六 C3 力 办 ， 油 ?的 方向 移动 az ， 妨 。 其中， 函数 f(y) 


] 必须 要 在 待 计算 的 点 上 有 定义 并 且 可 微 。 函数 例子 见 图 5-2。 
梯度 上 升 





2.0 








i i 一 一 EE 
-2.0 一 1.5 -1.0 一 0.5 0.0 0.5 1.0 1,5 2.0 
xX 


图 5-2 梯度 上 升 算法 到 达 每 个 点 后 都 会 重新 估计 移动 的 方向 。 从 PO 开始 ， 计 算 完 该 点 
的 梯度 ， 函 数 就 根据 梯度 移动 到 下 一 点 P1。 在 P1 点 ， 梯 度 再 次 被 重新 计算 ， 并 
治 新 的 梯度 方向 移动 到 P2。 如 此 循环 迭代 , 直到 满足 停止 条 件 。 和 迭代 的 过 程 中 ， 
梯度 算 子 总 是 保证 我 们 能 选取 到 最 佳 的 移动 方向 


图 5-2 中 的 梯度 上 升 算法 沿 梯度 方向 移动 了 一 步 。 可 以 看 到 ， 梯 度 算 子 总 是 指向 函数 值 增长 
最 快 的 方向 。 这 里 所 说 的 是 移动 方向 ， 而 未 提 到 移动 量 的 大 小 。 该 量 值 称 为 步 长 ， 记 做 a。 用 向 
量 来 表示 的 话 ， 梯 度 算 法 的 迭代 公式 如 下 ， 

w= wt+oV,,f(w) 

该 公式 将 一 直 被 迭代 执行 ,直至 达到 某 个 停止 条 件 为 止 , 比 如 迭代 次 数 达 到 某 个 指定 值 或 算 

法 达到 某 个 可 以 允许 的 误差 范围 。 
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» 本 和 全 | 


人 它 ES 只 是 公式 中 的 
加 法 需要 变 成 减法 。 因 此 ， 对 应 的 公式 可 以 写成 
w:=wtaV, f(w) 
梯度 上 升 算法 用 来 求 函数 的 最 大 值 ， 而 梯度 下 降 算 法 用 来 求 函 数 的 最 小 值 。 


基于 上 面 的 内 容 ， 我 们 来 看 一 个 Logistic 回 归 分 类 器 的 应 用 例子 ， 从 图 5-3 可 以 看 到 我 们 采用 
的 数据 集 。 


ee Classl 
Class 0 : 5 





-5 


-4 -3 -2 -1 0 1 2 3 4 
Xl1 


图 5-3 ”一 个 简单 数据 集 ， 下 面 将 采用 梯度 上 升 法 找到 Logistic 回 归 分 类 咒 在 此 数据 集 
上 的 最 佳 回归 系数 


5.2.2 ”训练 算法 : 使 用 梯度 上 升 找到 最 佳 参 数 


图 5-3 中 有 100 个 样本 点 ， 每 个 点 包含 两 个 数值 型 特征 : X1 和 X2。 在 此 数据 集 上 ， 我 们 将 通 
过 使 用 梯度 上 升 法 找到 最 佳 回 归 系 数 ， 也 就 是 拟 合 出 Logistic 回 归 模 型 的 最 佳 参数 。 
梯度 上 升 法 的 伪 代 码 如 下 : 
每 个 回归 系数 初始 化 为 1 
重复 R 次 ， 
计算 整个 数据 集 的 梯度 
使 用 alpha x gradient 更 新 回归 系数 的 向 量 
返回 回归 系数 、 
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下 面 的 代码 是 梯度 上 升 算法 的 具体 实现 。 为 了 解 实际 效果 ， 打开 文本 编辑 器 并 创建 一 个 名 为 最 后 还 需 说 明 一 点 ,你 可 能 对 @ 中 公式 的 前 两 行 觉得 陌生 。 此 处 略 去 了 一 个 简单 的 数学 推导 ， 
logRegres.py 的 文件 ， 输 入 下 列 代码 : 我 把 它 留 给 有 兴趣 的 读者 。 定 性 地 说 , 这 里 是 在 计算 真实 类 别 与 预测 类 别 的 差 值 ， 接 下 来 就 是 按 
局 清 5-1 Lo ti 回归 梯 上 > 照 该 差 值 的 方向 调整 回归 系数 。 
0 全 站 : 接 下 来 看 看 实际 效果 ， 打开 文本 编辑 器 ， 添加 程序 清单 5-1 的 代码 。 


dataMat = []; labelMat = 1] 在 Python 提 示 符 下 ， 敲 入 下 面 的 代码 : 


fr = open('testSet.txt') 
for line in fr.readlines(): 
lineArr = line.strip() .split() 


>>> import logRegres 
>>> dataArr,1labelMat=logRegres.1loadDataSet () 


dataMat.append([1.0, float (lineArr{0]), float (lineArr [1])]) ee logRegres .gradAscent (dataArr, labelMat) 
3 matrix([[ 4.12414349] ， 
labelMat .append (int (lineArr [2])) { 0.48007329] 
return dataMat,1labelMat 


[-0.6168482 ]]) 


5.2.3 分析 数据 ， 画 出 决策 边界 


def sigmoid (inx): 
return 1.0/(l+exp (-inx)) 


Gef gradAscent (dataMatIin, classLabels)}): 





i tt tt poh 上 面 已 经 解 出 了 一 组 回归 系数 , 它 确定 了 不 同类 别 数据 之 间 的 分 隔 线 。 那 么 怎样 画 出 该 分 隔 线 ， 
mn = shape (dataMatrix) 从 而 使 得 优化 的 过 程 便于 理解 呢 ? 下 面 将 解决 这 个 问题 ， 打 开 logRegres ,py 并 添加 如 下 代码 。 
alpha = 0.001 
nrcyeles ed 程序 清单 5-2 画 出 数据 集 和 Logistic 回 归 最 佳 拟 合 直线 的 函数 | 
e lotBestFit (wei): 
0 tt part watplotlib, pypior as plt : 
和 ee 2 ee * dataMatrix.transpose()* error dot anat, Tabe1Mot -loagDataset ( | 
证 ts dataArr = array (dataMat) | 
程序 清单 5-1 的 代码 在 开头 提供 了 一个 便利 函数 loaapataset () ， 它 的 主要 功能 是 打开 文本 2 
文件 testset .txt 并 逐 行 读 取 。 每 行 前 两 个 值 分 别 是 X1 和 X2, 第 三 个 值 是 数据 对 应 的 类 别 标签 。 ee ee SA 
此 外 , 为 了 方便 计算 , 该 函数 还 将 X0 的 值 设 为 1.0。 接 下 来 的 函数 是 5.2 节 提 到 的 函数 sigmoia ()。 if int(labelMat [i])== 1: | 
梯度 上 升 算法 的 实际 工作 是 在 函数 gzxadascent () 里 完成 的 ， 该 函数 有 两 个 参数 。 第 一 个 参 ny ; Ycora1 .appenq (dataArr[i,2]) 
数 是 dataMathIn,， 它 是 一 个 2 维 NumPy 数 组 ， 每 列 分 别 代 表 每 个 不 同 的 特征 ， 每 行 则 代表 每 个 ep re ycord2.append (dataArr{i,2]) 
训练 样本 。 我 们 现在 采用 的 是 100 个 样本 的 简单 数据 集 ， 它 包含 了 两 个 特征 X1 和 X2， 再 加 上 第 0 a 
维特 征 X0， 所 以 daataMathln 里 存放 的 将 是 100x3 的 矩阵 。 在 @ 处 ， 我 们 获得 输入 数据 并 将 它们 ax.scatter (xcord1, Ycordl1l, s=30, c='red', marker='s') 
转换 成 NumPy 矩 阵 。 这 是 本 书 首次 使 用 NumPy 和 矩阵 ,如果 你 对 抵 阵 数学 不 太 熟悉 ,那么 一 些 运算 Se 
可 能 就 会 不 易 理解 。 比 如 ，NumPy 对 2 维 数组 和 矩阵 都 提供 一 些 操作 支持 ， 如 果 混 淆 了 数据 类 型 y =- (-weights [0] -weights [1] sx) /weights [2] 6 
和 对 应 的 操作 ， 执 行 结果 将 与 预期 截然 不 同 。 对 此 ， 本 书 附录 A 给 出 了 对 NumPy 和 矩阵 的 介绍 。 第 ni 人 
二 个 参数 是 类 别 标 签 ， 它 是 一 个 1x100 的 行 向 量 。 为 了 便于 和 挫 阵 运算 ， 需 要 将 该 行 向 量 转换 为 列 plt .show () 
向 量 ， 做 法 是 将 原 向 量 转 置 ， 再 将 它 赋值 给 labslMat。 接 下 来 的 代码 是 得 到 矩阵 大 小 ， 再 设置 程序 清单 5-2 中 的 代码 是 直接 用 Matplotlib 画 出 来 的 。 唯一 要 指出 的 是 ，@ 处 设置 了 sigmoia 
一 些 梯度 上 升 算法 所 需 的 参数 。 函数 为 0。 回 忆 5.2 节 ，0 是 两 个 分 类 (类别 1 和 类 别 0 ) 的 分 界 处 。 因 此 , 我 们 设 定 0= woxm + wixi + 
变量 alpha 是 向 目标 移动 的 步 长 ，maxcycles 是 迭代 次 数 。 在 for 循 环 迭 代 完 成 后 ， 将 返回 wx2>， 然 后 解 出 X2 和 X1 的 关系 式 ( 即 分 隔 线 的 方程 ， 注 意 X0 = 1 )。 
训练 好 的 回归 系数 。 需 要 强调 的 是 ， 在 @ 处 的 运算 是 矩阵 运算 。 变 量 h 不 是 一 个 数 而 是 一 个 列 向 运行 程序 清单 5-2 的 代码 ， 在 Python 提 示 符 下 输入 : 


量 ， 列 向 量 的 元 素 个 数 等 于 样本 个 数 ， 这 里 是 100。 对 应 地 ， 运 算 dataMatrix * weights 代 表 
的 不 止 一 次 乘积 计算 ， 事实 上 该 运算 包含 了 300 次 的 乘积 。 
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>>> from numpy import * 
>>> reload (logRegres) 
<module 'logRegres' from 'logRegres.py'> 
>>> logRegres.plotBestFit (weights.getA()) 


输出 的 结果 如 图 5-4 所 示 。 
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图 5-4 “梯度 上 升 算法 在 500 次 迭代 后 得 到 的 Logistic 回 归 最 佳 拟 合 直线 


这 个 分 类 结果 相当 不 错 , 从 图 上 看 只 错 分 了 两 到 四 个 点 。 但 是 , 尽管 例子 简单 且 数 据 集 很 小 ， 
这 个 方法 却 需要 大 量 的 计算 ( 300 次 乘法 )。 因 此 下 一 节 将 对 该 算法 稍 作 改 进 ， 从 而 使 它 可 以 用 在 
真实 数据 集 上 。 


5.2.4 ”训练 算法 随机 梯度 上 升 


梯度 上 升 算法 在 每 次 更 新 回归 系数 时 都 需要 遍历 整个 数据 集 ， 该 方 法 在 处 理 100 个 左右 的 数 
据 集 时 尚 可 , 但 如 果 有 数 十 亿 样 本 和 成 千 上 万 的 特征 ， 那么 该 方法 的 计算 复杂 度 就 太 高 了 。 一 种 
改进 方法 是 一 次 仅 用 一 个 样本 点 来 更 新 回归 系数 , 该 方法 称 为 随机 梯度 上 升 算法 。 由 于 可 以 在 新 
样本 到 来 时 对 分 类 器 进行 增 量 式 更 新 ， 因而 随机 梯度 上 升 算法 是 一 个 在 线 学 习 算法 。 与“ 在线 学 
习 ” 相 对 应 ， 一 次 处 理 所 有 数据 被 称 作 是 “ 批 处 理 ”。 

随机 梯度 上 升 算法 可 以 写成 如 下 的 伪 代 码 : 

所 有 回归 系数 初始 化 为 1 

对 数据 集中 每 个 样本 

计算 该 样本 的 梯度 

使 用 alpha x gradient 更 新 回归 系数 值 
返回 回归 系数 值 
以 下 是 随机 梯度 上 升 算法 的 实现 代码 。 
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程序 清单 5-3 ”随机 梯度 上 升 算 法 


def stocGradAscent0 (dataMatrix, cilassLabels): 
m,n = shape (dataMatrix) 
alpha = 0.01 
weights = ones{(n) 
for i in range (m) : 
h = sigmoid{sum(dataMatrix[i]*weights)) 
error = classLabels[i] - h 
weights = weights + alpha * error * dataMatrix!li]} 
return weights 


可 以 看 到 ,随机 梯度 上 升 算法 与 梯度 上 升 算 法 在 代码 上 很 相似 , 但 也 有 一 些 区 别 : 第 一 , 后 


者 的 变量 h 和 误差 error 都 是 向 量 ， 而 前 者 则 全 是 数值 ; 第 二 ， 前 者 没有 矩阵 的 转换 过 程 ， 所 有 ， 


变量 的 数据 类 型 都 是 NumPy 数 组 。 
为 了 验证 该 方法 的 结果 ， 我 们 将 程序 清单 5-3 的 代码 添加 到 logRegres.py 中 ， 并 在 Python 提 示 
符 下 输入 如 下 命令 : 


>>> from numpy import* 

>>> reload(logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> dataArr,labelMat=logRegres.1loadDataSet () 

>>> weights=logRegres.stocGradAscent0 (array (dataArr) ,labelMat) 
>>> logRegres.plotBestFit (weights)} 


执行 完毕 后 将 得 到 图 5-5 所 示 的 最 佳 拟 合 直线 图 ， 该 图 与 图 5-4 有 一 些 相 似 之 处 。 可 以 看 到 ， 拟 合 
出 来 的 直线 效果 还 不 错 ， 但 并 不 像 图 5-4 那 样 完美 。 这 里 的 分 类 器 错 分 了 三 分 之 一 的 样本 。 
直接 比较 程序 清单 5-3 和 程序 清单 5-1 的 代码 结果 是 不 公平 的 ， 后 者 的 结果 是 在 整个 数据 集 上 
迭代 了 500 次 才 得 到 的 。 一 个 判断 优化 算法 优 劣 的 可 靠 方 法 是 看 它 是 否 收敛 ， 也 就 是 说 参数 是 否 
达到 了 稳定 值 ， 是 否 还 会 不 断 地 变化 ? 对 此 ， 我 们 在 程序 清单 5-3 中 随机 梯度 上 升 算法 上 做 了 些 
修改 ,使 其 在 整个 数据 集 上 运行 200 次 。 最 终 绘 制 的 三 个 回归 系数 的 变化 情况 如 图 5-6 所 示 。 
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图 5-5 ”随机 梯度 上 升 算法 在 上 述 数据 集 上 的 执行 结果 ， 最 佳 拟 合 直线 并 非 最 佳 分 类 线 
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图 5-6 ”运行 随机 梯度 上 升 算法 ， 在 数据 集 的 一 次 遍历 中 回归 系数 与 迭代 次 数 的 关系 
图 。 回 归 系 数 经 过 大 量 氨 代 才 能 达到 稳定 值 ， 并 且 仍 然 有 局 部 的 波动 现象 


图 5-6 展 示 了 随机 梯度 上 升 算法 在 200 次 迭代 过 程 中 回归 系数 的 变化 情况 。 其 中 的 系数 >， 也 
就 是 图 5-5 中 的 X2 只 经 过 了 50 次 迭代 就 达到 了 稳定 值 ， 但 系数 1 和 0 则 需要 更 多 次 的 迭代 。 另 外 值 
得 注意 的 是 ， 在 大 的 波动 停止 后 ， 还 有 一 些小 的 周期 性 波动 。 不 难 理解 ， 产 生 这 种 现象 的 原因 是 
存在 一 些 不 能 正确 分 类 的 样本 点 ( 数据 集 并 非 线性 可 分 ), 在 每 次 迭代 时 会 引发 系数 的 剧烈 改变 。 
我 们 期 望 算法 能 避免 来 回 波动 ， 从 而 收敛 到 某 个 值 。 另 外 ， 收 敛 速度 也 需要 加 快 。 

对 于 图 5-6 存 在 的 问题 ， 可 以 通过 修改 程序 清单 5-3 的 随机 梯度 上 升 算法 来 解决 ， 具 体 代码 
如 下 。 


程序 清单 5-4 ”改进 的 随机 梯度 上 升 算法 


def stocGradAscentl (dataMatrix, classLabels, numIiter=150): 
m,n = shape (dataMatrix) 
weights = ones (ny) 
for j in range (numIter): dataIndex = range (m) 
for i in range{(m): alpha 每 次 迭代 
alpha = 4/(1.0+j+i)+0.01 时 需要 调整 
randIindex = int (random.uniform(0,1len(dataIndex))) 
h = sigmoid(sum(dataMatrix[randIindex] *+weights)) 
error = classLabels[randIindex] - h 
weights = weights + alpha * error * dataMatrix [randIndex] 
del{dataIndex {randIndex]) 
return weights 


程序 清单 5-4 与 程序 清单 5-3 类 似 ,但 增加 了 两 处 代码 来 进行 改进 。 
第 一 处 改进 在 @@ 处 。 一 方面 ，alpha 在 每 次 迭代 的 时 候 都 会 调整 ， 这 会 缓解 图 5-6 上 的 数据 波 


随机 选取 更 新 
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动 或 者 高 频 波动 。 另外, 虽然 alpha 会 随 着 迭代 次 数 不 断 减 小 , 但 永远 不 会 减 小 到 0, 这 是 因为 @ 中 
还 存在 一 个 常数 项 。 必 须 这 样 做 的 原因 是 为 了 保证 在 多 次 迭代 之 后 新 数据 仍然 具有 一 定 的 影响 。 
如 果 要 处 理 的 问题 是 动态 变化 的 , 那么 可 以 适当 加 大 上 述 常数 项 , 来 确保 新 的 值 获得 更 大 的 回归 
系数 。 另 一 点 值得 注意 的 是 , 在 降低 alpha 的 函数 中 ,alpha 每 次 减少 1/ (j+i) , 其 中 j 是 迭代 次 数 ， 
i 是 样本 点 的 下 标 ?。 这 样 当 j<<max (i) 时 ， alpha 就 不 是 严格 下 降 的 。 避 免 参数 的 严格 下 降 也 常 
见于 模拟 退火 算法 等 其 他 优化 算法 中 。 

程序 清单 5-4 第 二 个 改进 的 地 方 在 @ 处 ， 这 里 通过 随机 选取 样本 来 更 新 回归 系数 。 这 种 方法 
将 减少 周期 性 的 波动 (如 图 5-6 中 的 波动 )。 具 体 实现 方法 与 第 3 章 类 似 ， 这 种 方法 每 次 随机 从 列 
表 中 选 出 一 个 值 ， 然 后 从 列表 中 市 掉 该 值 ( 再 进行 下 一 次 近代 )。 

此 外 ， 改 进 算法 还 增加 了 一 个 迭代 次 数 作为 第 3 个 参数 。 如 果 该 参数 没有 给 定 的 话 ， 算 法 将 
默认 迭代 150 次 。 如 果 给 定 ， 那 么 算法 将 按照 新 的 参数 值 进行 迭代 。 

与 stocGradRscent1 () 类 似 ， 图 5-7 显 示 了 每 次 欠 代 时 各 个 回归 系数 的 变化 情况 。 
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图 5-7 使 用 样本 随机 选择 和 alpha 动 态 减 少 机 制 的 随机 梯度 上 升 算法 stocGradAascent1 () 
所 生成 的 系数 收敛 示意 图 o 该 方法 比 采 用 固定 alpha 的 方法 收敛 速度 更 快 


比较 图 5-7 和 图 5-6 可 以 看 到 两 点 不 同 。 第 一 点 是 ， 图 5-7 中 的 系数 没有 像 图 5-6 里 那样 出 现 周 
期 性 的 波动 ， 这 归功 于 stocGradascent1() 里 的 样本 随机 选择 机 制 ; 第 二 点 是 , 图 5-7 的 水 平 轴 








人 @ 要 注意 区 分 这 里 的 下 标 与 样本 编号 ， 编 号 表示 了 样本 在 矩阵 中 的 位 置 〈 代 码 中 为 randIndex )， 而 这 里 的 下 标 表 示 
本 次 近代 中 第 个 选 出 来 的 样本 。 至 者 注 
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比 图 5-6 短 了 很 多 , 这 是 由 于 stocGradAscent1 () 可 以 收敛 得 更 快 。 这 次 我 们 仅仅 对 数据 集 做 了 
20 次 遍历 ， 而 之 前 的 方法 是 500 次 。 

下 面 看 看 在 同一 个 数据 集 上 的 分 类 效果 。 将 程序 清单 5-4 的 代码 添加 到 logRegres.py 文 件 中 ， 
并 在 Python 提示 符 下 输入 : 

>>> reload(logRegres) 2 

<module 'logRegres' from 'logRegres.py'> 

>>> dataArr, labelMat=logRegres .loadpataset () 


>>> weights-logRegres.stocGradAscent1 (array (dataArr) , labelMat) 
>>> logRegres.plotBestFit (weights) 


程序 运行 之 后 应 该 能 看 到 类 似 图 5-8 的 结果 图 。 该 分 隔 线 达到 了 与 GradientAscent () 差 不 
多 的 效果 ， 但 是 所 使 用 的 计算 量 更 少 。 


20 


15 


10 





X1 
图 5-8 使 用 改进 的 随机 梯度 上 升 算法 得 到 的 系数 


默认 迄 代 次 数 是 150， 可 以 通过 stocGradAscent () 的 第 3 个 参数 来 对 此 进行 修改 ， 例如 : 

>>> weights-logRegres.stocGradAscent1 (array (dataArr) , labelMat, 500) 

目前 , 我 们 已 经 学 习 了 几 个 优化 算法 , 但 还 有 很 多 优化 算法 值得 探讨 ， 所 幸 这 方 面 已 有 大 量 
的 文献 可 供 参考 。 另 外 再 说 明 一 下 ,针对 给 定 的 数据 集 ， 读者 完全 可 以 对 算法 的 各 种 参数 进行 调 
整 ， 从 而 达到 更 好 的 效果 。 

迄今 为 止 我 们 分 析 了 回归 系数 的 变化 情况 , 但 还 没有 达到 本 章 的 最 终 目标 ， 即 完成 具体 的 分 
类 任务 。 下 一 节 将 使 用 随机 梯度 上 升 算法 来 解决 病 马 的 生死 预测 问题 。 


5.3 示例 : 从 冶 气 病症 预测 病 蕊 的 死亡 率 85 


5.3 示例 :从 疝气 病症 预测 病 马 的 死亡 率 


本 节 将 使 用 Logistic 回 归来 预测 串 有 疝 病 的 马 的 存活 问题 。 这 里 的 数据 ?包含 368 个 样本 和 28 
个 特征 。 我 并 非 育 马 专家 ， 从 一 些 文献 中 了 解 到 ,， 疝 病 是 描述 马 胃 肠 痛 的 术语 。 然 而 ， 这 种 病 不 
一 定 源 自 马 的 胃 肠 问题 , 其 他 问题 也 可 能 引发 马 疝 病 。 该 数据 集中 包含 了 医院 检测 马 疝 病 的 一 些 
指标 ， 有 的 指标 比较 主观 ， 有 的 指标 难以 测量 ， 例 如 马 的 疼痛 级 别 。 





“水 例 ， 使 用 Logistic 回 归 知 计 马 交 病 的 死亡 率 一 | 

(1) 收集 数据 : 给 定数 据 文件 。 

(2) 准备 数据 : 用 Python 解析 文本 文件 并 填充 缺失 值 。 

(3) 分 析 数 据 : 可 视 化 并 观察 数据 。 

(4) 训练 算法 : 使 用 优化 算法 ， 找 到 最 佳 的 系数 。 

(5) 测试 算法 : 为 了 量化 回归 的 效果 ， 需 要 观察 错误 率 。 根 据 错误 率 决 定 是 否 回 退 到 训练 
阶段 ， 通 过 改变 迭代 的 次 数 和 步 长 等 参数 来 得 到 更 好 的 回归 系数 。 

(6) 使 用 算法 实现 一 个 简 单 的 命令 行程 序 来 收集 号 的 症状 并 输出 预测 结果 并 非 难事 ， 这 
可 以 做 为 留 给 读者 的 一 道 习 题 。 


另外 需要 说 明 的 是 , 除了 部 分 指标 主观 和 难以 测量 外 ,该 数据 还 存在 一 个 问题 , 数据 集中 有 





30% 的 值 是 缺失 的 。 下 面 将 首先 介绍 如 何 处 理 数据 集中 的 数据 缺失 问题 , 然后 再 利用 Logistic 回 归 


和 随机 梯度 上 升 算法 来 预测 病 马 的 生死 。 


5.3.1 ”准备 数据 处 理 数据 中 的 缺失 值 


数据 中 的 缺失 值 是 个 非常 坏 手 的 问题 ,有 很 多 文献 都 致力 于 解决 这 个 问题 。 那么 , 数据 缺失 
究竟 带 来 了 什么 问题 ? 假设 有 100 个 样本 和 20 个 特征 ， 这 些 数 据 都 是 机 器 收集 回来 的 。 若 机 器 上 
的 某 个 传感器 损坏 导致 一 个 特征 无 效 时 该 怎么 办 ? 此 时 是 否 要 扔 掉 整个 数据 ? 这 种 情况 下 ， 另外 
19 个 特征 怎么 办 ? 它们 是 否 还 可 用 ? 答案 是 肯定 的 。 因 为 有 时 候 数据 相当 昂贵 ， 扔 掉 和 重新 获取 
都 是 不 可 取 的 ， 所 以 必须 采用 一 些 方法 来 解决 这 个 问题 。 

下 面 给 出 了 一 些 可 选 的 做 法 : 

口 使 用 可 用 特征 的 均值 来 填补 缺失 值 ; 

口 使 用 特殊 值 来 填补 缺失 值 ， 如 -1; 

口 怨 赂 有 缺失 值 的 样本 ; 

口 使 用 相似 样本 的 均值 添补 缺失 值 ; 

口 使 用 另外 的 机 器 学 习 算法 预测 缺失 值 。 





CD 数据 集 来 自 2010 年 1 月 11 日 的 UCI 机 器 学 习 数 据 库 《 http://archive.ics.uci.edu/ml/datasets/Horset+Colic )。 该 数据 最 早 
由 加 拿 大 安大略 省 圭 尔 夫 大 学 计算 机 系 的 Mary McLeish 和 Matt Cecile 收 集 。 











————————— 
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现在 , 我 们 对 下 一 节 要 用 的 数据 集 进 行 预 处 理 , 使 其 可 以 顺利 地 使 用 分 类 算法 。 在 预 处 理 阶段 
需要 做 两 件 事 : 第 一 , 所 有 的 缺失 值 必须 用 一 个 实数 值 来 蔡 换 ,因为 我 们 使 用 的 NumPy 数 据 类 型 不 
人 允许 包含 缺失 值 。 这 里 选择 实数 0 来 蔡 换 所 有 缺失 值 ， 恰 好 能 适用 于 Logistic 回 归 。 这 样 做 的 直觉 在 
于 ,我 们 需要 的 是 一 个 在 更 新 时 不 会 影响 系数 的 值 。 回 归 系 数 的 更 新 公式 如 下 : 

weights = weights + alpha * error * dataMatrix[randIndex] 

如 果 dataMatrix 的 某 特征 对 应 值 为 %， 那 么 该 特征 的 系数 将 不 做 更 新 ， 即 : 

weights = weights 

另外 ， 由 于 sigmoiq(0)=0.5， 即 它 对 结果 的 预测 不 具有 任何 倾向 性 ， 因 此 上 述 做 法 也 不 会 对 
误差 项 造成 任何 影响 。 基 于 上 述 原因 ， 将 缺失 值 用 0 代替 既 可 以 保留 现 有 数据 ， 也 不 需要 对 优化 算 
法 进行 修改 。 此 外 ， 该 数据 集中 的 特征 取 值 一 般 不 为 0， 因 此 在 某 种 意义 上 说 它 也 满足 “特殊 值 ” 
这 个 要 求 。 

可 你 理 中 做 的 第 二 件 事 是 ， 如 果 在 测试 数据 集中 发 现 了 一 条 数据 的 类 别 标签 已 经 缺失 ， 那 么 我 
们 的 简单 做 法 是 将 该 条 数据 丢弃 。 这 是 因为 类 别 标签 与 特征 不 同 ， 很 难 确定 采用 某 个 合适 的 值 来 蔡 
换 。 采 用 Logistic 回 归 进 行 分 类 时 这 种 做 法 是 合理 的 ， 而 如 果 采 用 类 似 kNN 的 方法 就 可 能 不 太 可 行 。 

原始 的 数据 集 经 过 预 处 理 之 后 保存 成 两 个 文件 : horsecolicTest.txt 和 horsecolic- 
Training.txt。 如 果 想 对 原始 数据 和 预 处理 后 的 数据 做 个 比较 ， 可 以 在 http://archive.ics.uci. 
edu/ml/datasets/Horse+Colic 浏 览 这 些 数据 。 

现在 我 们 有 一 个 “干净 ”可 用 的 数据 集 和 一 个 不 错 的 优化 算法 ,下 面 将 把 这 些 部 分 融合 在 一 
起 训练 出 一 个 分 类 器 ， 然 后 利用 该 分 类 器 来 预测 病 马 的 生死 问题 。 


5.3.2 ”测试 算法 ， 用 Logistic 回归 进行 分 类 


本 章 前 面 几 节 介绍 了 优化 算法 ,但 目前 为 止 还 没有 在 分 类 上 做 任何 实际 尝试 。 使 用 Logistic ， 


回归 方法 进行 分 类 并 不 需要 做 很 多 工作 , 所 需 做 的 只 是 把 测试 集 上 每 个 特征 向 量 乘 以 最 优化 方法 
得 来 的 回归 系数 ， 再 将 该 乘积 结果 求 和 ， 最 后 输入 到 Sigmoid 函 数 中 即 可 。 如 果 对 应 的 Sigmoid 值 
大 于 0.5 就 预测 类 别 标签 为 1， 否 则 为 0。 

下 面 看 看 实际 运行 效果 ， 打 开 文本 编辑 器 并 将 下 列 代码 添加 到 IogRegres.py 文 件 中 。 


程序 清单 5-5 ”Logistic 回归 分 类 函数 
def classifyVector (inX, weights): 
prob = sigmoid{(sum (inX*weights)) 
if prob > 0.5: return 1.0 
else: return 0.0 


def colicTest () : 
frTrain = open('horseColicTraining.txt') 
frTest = openl('horseColicTest .txt') 
trainingset = []; trainingLabels = [] 
for line in frTrain.readlines (): 
currLine = line.strip() .split('\t') 
lineArr =[] 
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for i in range(21): 
lineArr.append (float (currLine [i])) 
trainingSet .append (lineArr) 
trainingLabels.append (float (currLine [21] ) ) 
trainWeights = stocGradAscentl1 (array (trainingSet), trainingLabels, 500) 
“errorCount = 0; numTestVec = 0.0 
for line in frTest.readlines(): 
numTestVec += 1.0 
currLine = line.strip() .split('\t') 
linearr =[] 
for i in range (21): 
lineArr.append (float (currLine [i])) 
if int(classifyVector (array (lineArr), trainweights))!= 
int (currLine [21] ) : 
errorCount += 1 
errorRate = (float (errorCount) /numTestVec) 
print "the error rate of this test is: gf 多 errorRate 
return errorRate 


def multiTest (): 
numTests = 10; errorSum=0.0 
for k in range (numTests) : 
errorSum += colicTest () 
print "after %d iterations the average error rate is: 
gf" 多 (numTests, errorSum/float (numTests)) 


程序 清单 5-5$ 的 第 一 个 函数 是 classifyvector () ， 它 以 回归 系数 和 特征 向 量 作 为 输入 来 计 
算 对 应 的 Sigmoid 值 。 如 果 Sigmoid 值 大 于 0.5 函 数 返回 !， 否 则 返回 0。 

接 下 来 的 函数 是 colicTest () ， 是 用 于 打开 测试 集 和 训练 集 ， 并 对 数据 进行 格式 化 处 理 的 
函数 。 该 函数 首先 导入 训练 集 ， 同 前 面 一 样 ， 数 据 的 最 后 一 列 仍然 是 类 别 标签 。 数 据 最 初 有 三 个 


类 别 标签 ， 分 别 代表 马 的 三 种 情况 ;“ 仍 存活 ”、“ 已 经 死亡 ”和 “已 经 安乐 死 "。 这 里 为 了 方便 ， 


将 “已 经 死亡 ”和 “已 经 安乐 死 ” 合 并 成 “未 能 存活 ”这 个 标签 。 数 据 导 入 之 后 ， 便 可 以 使 用 
函数 stocGradascent1 () 来 计算 回归 系数 向 量 。 这 里 可 以 自由 设 定 迭 代 的 次 数 ， 例 如 在 训练 集 
上 使 用 500 次 迭代 ,实验 结果 表明 这 上 比 默认 迭代 150 次 的 效果 更 好 。 在 系数 计算 完成 之 后 ， 导 人 测 
试 集 并 计算 分 类 错误 率 。 整 体 看 来 ，colicTest () 具 有 完全 独立 的 功能 ， 多 次 运行 得 到 的 结果 
可 能 稍 有 不 同 ， 这 是 因为 其 中 有 随机 的 成 分 在 里 面 。 如 果 在 stocGradAscent1 () 函数 中 回归 系 
数 已 经 完全 收敛 ， 那 么 结果 才 将 是 确定 的 。 

最 后 一 个 函数 是 multiTest () ， 其 功能 是 调用 函数 colicTest () 10 次 并 求 结果 的 平均 值 。 
下 面 看 一 下 实际 的 运行 效果 ， 在 Python 提 示 符 下 输入 : 

>>> reload (logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> logRegres .multiTest () 

the error rate of this test is: 0.358209 


the error rate of this test is: 0.432836 
the error rate of this test is: 0.373134 














88 第 5 章 Logistic 回归 





the error rate of this test is: 0.298507 
the error rate of this test is: 0.313433 
after 10 iterations the average error rate is: 0.353731 


从 上 面 的 结果 可 以 看 到 ，10 次 迭代 之 后 的 平均 错误 率 为 35%。 事 实 上 ， 这 个 结果 并 不 差 ， 因 
为 有 30% 的 数据 缺失 。 当 然 ， 如 果 调 整 colicTest () 中 的 迭代 次 数 和 stochGragdAascent1 () 中 
的 步 长 ， 平 均 错 误 率 可 以 降 到 20% 左 右 。 第 7 章 中 我 们 还 会 再 次 使 用 到 这 个 数据 集 。 


5.4 本章 小 结 


Logistic 回 归 的 目的 是 寻找 一 个 非 线 性 函数 Sigmoid 的 最 佳 拟 合 参 数 ， 求 解 过 程 可 以 由 最 优化 
算法 来 完成 。 在 最 优化 算法 中 ,最 常用 的 就 是 梯度 上 升 算法 , 而 梯度 上 升 算 法 又 可 以 简化 为 随机 
梯度 上 升 算 法 。 

随机 梯度 上 升 算法 与 梯度 上 升 算法 的 效果 相当 , 但 占用 更 少 的 计算 资源 。 此 外 ， 随 机 梯度 上 
升 是 一 个 在 线 算法 , 它 可 以 在 新 数据 到 来 时 就 完成 参数 更 新 , 而 不 需要 重新 读 取 整 个 数据 集 来 进 
行 批 处 理 运 算 。 

机 器 学 习 的 一 个 重要 问题 就 是 如 何 处 理 缺失 数据 。 这 个 问题 没有 标准 答案 , 取决 于 实际 应 用 
中 的 需求 。 现 有 一 些 解 决 方案 ， 每 种 方案 都 各 有 优 缺 点 。 

下 一 章 将 介绍 与 Logistic 回 归 类 似 的 另 一 种 分 类 算法 ; 支持 向 量 机 ， 它 被 认为 是 目前 最 好 的 
现成 的 算法 之 一 。 


文 持 向 量 机 








本 章 内 容 

口 简单 介绍 支持 向 量 机 

口 利用 SMO 进 行 优化 

口 利用 核 函数 对 数据 进行 空间 转换 
口 将 SVM 和 其 他 分 类 器 进行 对 比 


“由 于 理解 支持 向 量 机 ( Support Vector Machines，SVM ) 需要 掌握 一 些 理论 知识 ， 而 这 对 于 
读者 来 说 有 一 定 难度 ， 于 是 建议 读者 直接 下 载 LIBSVM 使 用 。” 我 发 现 ， 在 介绍 SVM 时 ， 不 止 一 
本 书 都 采用 了 以 上 这 种 模式 。 本 书 并 不 打算 沿用 这 种 模式 。 我 认为 , 如果 对 SVM 的 理论 不 甚 了 解 
就 去 阅读 其 产品 级 C++ 代码 ， 那 么 读 懂 的 难度 很 大 。 但 如 果 将 产品 级 代码 和 速度 提升 部 分 剥离 出 
去 ， 那么 代码 就 会 变 得 可 控 ， 或 许 这 样 的 代码 就 可 以 读 懂 了 。 

有 些 人 认为 ，SVM 是 最 好 的 现成 的 分 类 器 ,这 里 说 的 “现成 ” 指 的 是 分 类 器 不 加 修改 即 可 直 
接 使 用 。 同 时 ， 这 就 意味 着 在 数据 上 应 用 基本 形式 的 SVM 分 类 器 就 可 以 得 到 低 错误 率 的 结果 。 
SVM 能 够 对 训练 集 之 外 的 数据 点 做 出 很 好 的 分 类 决策 。 

本 章 首先 讲述 SVM 的 基本 概念 ， 书 中 会 引入 一 些 关键 术语 。SVM 有 很 多 实现 ， 但 是 本 章 只 
关注 其 中 最 流行 的 一 种 实现 ， 即 序列 最 小 优化 ?了 ( Sequential Minimal Optimization，SMO ) 算法 。 
在 此 之 后 ， 将 介绍 如 何 使 用 一 种 称 为 核 函 数 〔 kernel ) 的 方式 将 SVM 扩展 到 更 多 数据 集 上 。 最 后 
会 回顾 第 1 章 中 手写 识别 的 例子 ， 并 考察 其 能 否 通过 SVM 来 提高 识别 的 效果 。 


6.1 基于 最 大 间隔 分 隔 数 据 






优点 : 泛 化 错误 率 低 ， 计 算 开销 不 大 ， 结 果 易 解释 。 
缺点 ;对 参数 调节 和 核 函 数 的 选择 敏感 ， 原 始 分 类 器 不 加 修改 仅 适 用 于 处 理 二 类 问题 。 
适用 数据 类 型 ， 数 值 型 和 标 称 型 数据 。 


QD 一 种 求解 支持 向 量 机 二 次 规划 的 算法 。 一 一 译 者 注 
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在 介绍 SVM 这 个 主题 之 前 ， 先 解释 几 个 概念 。 考 虑 图 6-1 中 A-D 共 4 个 方 框 中 的 数据 点 分 布 ， 
一 个 问题 就 是 ， 能 和 否 画 出 一 条 直线 将 圆 形 点 和 方形 点 分 开 呢 ?9 先 考虑 图 6-2 方 框 A 中 的 两 组 数据 ， 
它们 之 间 已 经 分 隔 得 足够 开 , 因此 很 容易 就 可 以 在 图 中 面 出 一 条 直线 将 两 组 数据 点 分 开 。 在 这 种 
情况 下 ， 这 组 数据 被 称 为 线性 可 分 ( linearly separable ) 数据 。 读 者 先 不 必 担 心 上 述 假设 是 否 过 于 
完美 ， 稍 后 当 直 线 不 能 将 数据 点 分 开 时 ， 我 们 会 对 上 述 假设 做 一 些 修改 。 














= 


-00 00 0 05 10 15 


图 6-1 4 个 线性 不 可 分 的 数据 集 


上 述 将 数据 集 分 隔 开 来 的 直线 称 为 分 隔 超 平面 ( separating hyperplane )。 在 上 面 给 出 的 例子 

中 ， 由 于 数据 点 都 在 二 维 平面 上 ， 所 以 此 时 分 隔 超 平面 就 只 是 一 条 直线 。 但 是 ， 如 果 所 给 的 数据 
集 是 三 维 的 ， 那 么 此 时 用 来 分 隔 数 据 的 就 是 一 个 平面 。 显 而 易 见 ， 更 高 维 的 情况 可 以 依 此 类 推 。 
如 果 数 据 集 是 1024 维 的 , 那么 就 需要 一 个 1023 维 的 某 某 对 象 来 对 数据 进行 分 隔 。 这 个 1023 维 的 某 
某 对 象 到 底 应 该 叫 什么 ? N-1 维 呢 ? 该 对 象 被 称 为 超 平面 (hyperplane ), 也 就 是 分 类 的 决策 边界 。 
分 布 在 超 平面 一 侧 的 所 有 数据 都 属于 某 个 类 别 ， 而 分 布 在 另 一 侧 的 所 有 数据 则 属于 另 一 个 类 别 。 
我 们 希望 能 采用 这 种 方式 来 构建 分 类 器 , 即 如 果 数 据点 离 决策 边界 越 远 ,那么 其 最 后 的 预测 
结果 也 就 越 可 信 。 考 虑 图 6-2 框 B 到 框 D 中 的 三 条 直线 ， 它 们 都 能 将 数据 分 隔 开 ， 但 是 其 中 哪 一 条 
最 好 呢 ? 是 否 应 该 最 小 化 数据 点 到 分 隔 超 平面 的 平均 距离 ? 来 求 最 佳 直线 如 果 是 那样 , 图 6-2 的 B 
和 C 框 中 的 直线 是 否 真 的 就 比 D 框 中 的 直线 好 呢 ? 如 果 这 样 做 ， 是 不 是 有 点 寻找 最 佳 拟 合 直线 的 
感觉 ? 是 的 ， 上述 做 法 确实 有 点 像 直 线 拟 合 ,但 这 并 非 最 佳 方案 。 我 们 希望 找到 离 分 隔 超 平面 最 
近 的 点 ， 确 保 它 们 离 分 隔 面 的 距离 尽 可 能 远 。 这 里 点 到 分 隔 面 的 距离 被 称 为 间隔 9 (margin )。 我 
们 希望 间隔 尽 可 能 地 大 , 这 是 因为 如 果 我 们 犯错 或 者 在 有 限 数据 上 训练 分 类 器 的 话 ， 我 们 希望 分 











QD 本 书 中 有 两 个 间隔 的 概念 : 一 个 是 点 到 分 隔 面 的 距离 ， 称 为 点 相对 于 分 负面 的 间隔 ; 另 -一 一 个 是 数据 集中 所 有 点 到 
分 隔 面 的 最 小 间隔 的 2 倍 ， 称 为 分 类 器 或 数据 集 的 间隔 。 一 般 论文 书籍 中 所 提 到 的 “间隔 ”多 指 后 者 。SVM 分 类 
器 是 要 找 最 大 的 数据 集 间隔 。 书 中 没有 特意 区 分 上 述 两 个 概念 ， 请 根据 上 下 文理 解 。 一 _ 译 者 注 
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类 器 尽 可 能 健壮 。 
支持 向 量 ( supportvector ) 就 是 离 分 隔 超 平面 最 近 的 那些 点 。 接 下 来 要 试 着 最 大 化 支持 向 量 
到 分 隔 面 的 距离 ， 需 要 找到 此 问题 的 优化 求解 方法 。 
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图 6-2 A 框 中 给 出 了 一 个 线性 可 分 的 数据 集 ，B、C、DD 框 中 各 自给 出 了 一 条 可 以 将 两 
类 数据 分 开 的 直线 


6.2 寻找 最 大 间隔 


如 何 求 解数 据 集 的 最 佳 分 隔 直 线 ? 先 来 看 看 图 6-3。 分隔 超 平面 的 形式 可 以 写成 wx+b。 要 计 
算 点 A 到 分 隔 超 平面 的 距离 ， 就 必须 给 出 点 到 分 隔 面 的 法 线 或 重 线 的 长 度 ， 该 值 为 
|wa+b|/||w||。 这 里 的 常数 b 类 似 于 Logistic 回 归 中 的 截 距 w 。 的 交 是 w 和 人 各 5 起 千 述 了 


所 给 数据 的 分 隔 线 或 超 平面 。 接 下 来 我 们 讨论 分 类 器 。 
函数 间 隔 














图 6-3 点 A 到 分 隔 平面 的 距离 就 是 该 点 到 分 隔 面 的 法 线 长 度 


CR 


i 
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6.2.1 分 类 器 求解 的 优化 问题 


前 面 已 经 提 到 了 分 类 器 , 但 还 没有 介绍 它 的 工作 原理 。 理 解 其 工作 原理 将 有 助 于 理解 基于 优 
化 问题 的 分 类 器 求解 过 程 。 输 入 数据 给 分 类 器 会 输出 一 个 类 别 标签 , 这 相当 于 一 个 类 似 于 Sigmoid 
的 函数 在 作用 。 下 面 将 使 用 类 似 海 维 赛 德 阶 跃 函数 ( 即 单位 阶 跃 函 数 ) 的 函数 对 wie+b 作 用 得 到 
f (wx+b) ， 其 中 当 u<0 时 ftu) 输 出 -1， 反 之 则 输出 +1。 这 和 前 一 章 的 Logistic 回 归 有 所 不 同 ， 那 里 
的 类 别 标签 是 0 或 1。 

这 里 的 类 别 标签 为 什么 采用 -1 和 +1， 而 不 是 0 和 1 呢 ? 这 是 由 于 -1 和 +1 仅 仅 相差 一 个 符号 ， 
方便 数学 上 的 处 理 。 我们 可 以 通过 一 个 统一 公式 来 表示 间隔 或 者 数据 点 到 分 隔 超 平面 的 距离 , 同 
时 不 必 担 心 数据 到 底 是 属于 -1 还 是 +1 类 。 

当 计算 数据 点 到 分 隔 面 的 距离 并 确定 分 隔 面 的 放置 位 置 时 ， 间 隔 通 过 1abel * (w+b)o 来 
计算 ,这 时 就 能 体现 出 -1 和 +1 类 的 好 处 了 。 如 果 数 据点 处 于 正方 向 ( 即 +1 类 ) 并 且 离 分 隔 超 平 
面 很 远 的 位 置 时 ，wxz+b 会 是 一 个 很 大 的 正 数 ， 同时 label* (wsxz+b) 也 会 是 一 个 很 大 的 正 数 。 而 
如 果 数 据点 处 于 负 方 向 ( -1 类 ) 并 且 离 分 隔 超 平面 很 远 的 位 置 时 ， 此 时 由 于 类 别 标签 为 -1， 则 
label * (wx+b) 仍然 是 一 个 很 大 的 正 数 。 

现在 的 目标 就 是 找 出 分 类 器 定义 中 的 w 和 b。 为 此 , 我 们 必须 找到 具有 最 小 间隔 的 数据 点 ,而 
这 些 数据 点 也 就 是 前 面 提 到 的 支持 向 量 。 一 旦 找到 具有 最 小 间隔 的 数据 点 ,我 们 就 需要 对 该 间隔 
最 大 化 。 这 就 可 以 写作 ， 


arg max | min(label. (wx+b)). 问 

直接 求解 上 述 问 题 相当 困难 , 所 以 我 们 将 它 转换 成 为 另 一 种 更 容易 求解 的 形式 。 首先 考察 一 下 

上 式 中 大 括号 内 的 部 分 。 由 于 对 乘积 进行 优化 是 一 件 很 讨厌 的 事情 ， 因此 我 们 要 做 的 是 固定 其 中 一 

个 因子 而 最 大 化 其 他 因子 。 如 果 令 所 有 支持 向 量 的 label* (w+b) 都 为 1 ， 那 么 就 可 以 通过 求 

11w| | 的 最 大 值 来 得 到 最 终 解 。 但 是 ,并非 所 有 数据 点 的 label* (we+b) 都 等 于 1， 只 有 那些 离 分 
隔 超 平面 最 近 的 点 得 到 的 值 才 为 1。 而 离 超 平面 越 远 的 数据 点 ， 其 1abelx (wxz+b) 的 值 也 就 越 大 。 

在 上 述 优化 问题 中 , 给 定 了 一 些 约束 条 件 然后 求 最 优 值 ,因此 该 问题 是 一 个 带 约束 条 件 的 优 

化 问题 。 这 里 的 约束 条 件 就 是 lapel* (w+b) > 1.0。 对 于 这 类 优化 问题 ， 有 一 个 非常 著名 的 求 

解 方法 ， 即 拉 格 朗 日 乘 子 法 。 通 过 引入 拉 格 朗 日 乘 子 ， 我 人 ] 就 可 以 基于 约束 条 件 来 表述 原来 的 问 

题 。 由 于 这 里 的 约束 条 件 都 是 基于 数据 点 的 , 因此 我 们 就 可 以 将 超 平面 写 成 数据 点 的 形式 。 于 是 ， 

优化 目标 函数 最 后 可 以 写成 : 


ma BD 2 一 label®? .labelO .a .a ( x0, x0) @ 
i=] 2 j=! 





中 label * (rtb) 被 称 为 点 到 分 隔 面 的 函数 间隔 ，labelx (wx*x+D) i 称 为 点 到 分 隔 面 的 几何 间隔 。 一 一 译 者 注 
@@ 尖 括号 表示 x 和 x 中 两 个 向 量 的 内 积 。 一 一 译 者 注 
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其 约束 条 件 为 : 
QQ 宇 0， 和 yw .labelo =0 


i-! 

至 此 , 一 切 都 很 完美 , 但 是 这 里 有 个 假设 : 数据 必须 100% 线 性 可 分 。 目 前 为 止 ， 我 们 知道 
几乎 所 有 数据 都 不 那么 “干净 ”"。 这 时 我 们 就 可 以 通过 引入 所 谓 松 弛 变量 ( slack variable )， 来 允 
许 有 些 数 据点 可 以 处 于 分 隔 面 的 错误 一 侧 。 这 样 我 们 的 优化 目标 就 能 保持 仍然 不 变 , 但 是 此 时 新 
的 约束 条 件 则 变 为 : 

C 宇 Q 宇 0， 和 Va .labelo =0 
i 


这 里 的 常数 c 用 于 控制 “最 大 化 间隔 ”和 “保证 大 部 分 点 的 函数 间隔 小 于 1.0” 这 两 个 目标 的 
权重 。 在 优化 算法 的 实现 代码 中 ， 常 数 c 是 一 个 参数 ， 因 此 我 们 就 可 以 通过 调节 该 参数 得 到 不 同 
的 结果 。 一 旦 求 出 了 所 有 的 alpha， 那 么 分 隔 超 平面 就 可 以 通过 这 些 alpha 来 表达 。 这 一 结论 十 分 
直接 ，SVM 中 的 主要 工作 就 是 求解 这 些 alipha。 

要 理解 刚才 给 出 的 这 些 公式 还 需要 大 量 的 知识 。 如 果 你 有 兴趣 , 我 强烈 建议 去 查阅 相关 的 教 
材 28， 以 获得 上 述 公 式 的 推导 细节 。 


6.2.2 SVM 应 用 的 一 般 框架 


在 第 1 章 中 ， 我 们 定义 了 构建 机 器 学 习 应 用 的 一 般 步 又 ， 但 是 这 些 步 又 会 随机 器 学 习 任务 或 
算法 的 不 同 而 有 所 改变 ， 因 此 有 必要 在 此 探讨 如 何在 本 章 中 实现 它们 。 


人 yi 

(1) 收集 数据 可 以 使 用 任意 方法 。 

(2) 准备 数据 ， 需要 数值 型 数据 。 

(3) 分 析 数 据 : 有 助 于 可 视 化 分 隔 超 平面 。 

(4) 训练 算法 : SVM 的 大 部 分 时 间 都 源 自 训练 ， 该 过 程 主要 实现 两 个 参数 的 调 优 。 

(5) 测试 算法 ; 十 分 简单 的 计算 过 程 就 可 以 实现 。 

(6) 使 用 算法 : 几乎 所 有 分 类 问题 都 可 以 使 用 SVM， 值 得 一 提 的 是 ，SVM 本 身 是 一 个 二 类 
分 类 器 ， 对 多 类 问题 应 用 SVM 需要 对 代码 做 一 些 修改 。 


到 目前 为 止 , 我 们 已 经 了 解 了 一 些 理论 知识 , 我 们 当然 希望 能 够 通过 编程 ， 在 数据 集 上 将 这 
些 理论 付 诸 实践 。 下 一 节 将 介绍 一 个 简单 但 很 强大 的 实现 算法 。 





© Christopher M. Bishop, Pattern Recognition and Machine Learning (Springer 2006). 
©® Bemhard Schlkopf and Alexander J. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, 


and Beyond (MIT Press, 2001). | a 
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6.3 SMO 高 效 优化 算法 


接 下 来 , 我 们 根据 6.2.1 节 中 的 最 后 两 个 式 子 进行 优化 ,其 中 一 个 是 最 小 化 的 目标 函数 ,一 个 
是 在 优化 过 程 中 必须 遵循 的 约束 条 件 。 不 久之 前 ， 人 们 还 在 使 用 二 次 规划 求解 工具 ( quadratic 
solver ) 来 求解 上 述 最 优化 问题 ， 这 种 工具 是 一 种 用 于 在 线性 约束 下 优化 具有 多 个 变量 的 二 次 目 
标 函 数 的 软件 。 而 这 些 二 次 规划 求解 工具 则 需要 强大 的 计算 能 力 支撑 , 另外 在 实现 上 也 十 分 复杂 。 
所 有 需要 做 的 围绕 优化 的 事情 就 是 训练 分 类 器 , 一 日 且 得 到 alpha 的 最 优 值 ， 我 们 就 得 到 了 分 隔 超 平 
面 (2 维 平面 中 就 是 直线 ) 并 能 够 将 之 用 于 数据 分 类 。 

下 面 我 们 就 开始 讨论 SMO 算 法 , 然后 给 出 一 个 简化 的 版 本 , 以 便 读者 能 够 正确 理解 它 的 工作 
流程 。 后 一 节 将 会 给 出 SMO 算 法 的 完整 版 ， 它 比 简化 版 的 运行 速度 要 快 很 多 。 





6.3.1 Platt 的 SMO 算法 


1996 年 ，John Platt 发 布 了 一 个 称 为 SMO? 的 强大 算法 , 用 于 训练 SWM。SMO 表 示 序 列 最 小 优 
化 (Sequential Minimal Optimization )。Platt 的 SMO 算 法 是 将 大 优化 问题 分 解 为 多 个 小 优化 问题 来 
求解 的 。 这 些小 优化 问题 往往 很 容易 求解 ,并且 对 它们 进行 顺序 求解 的 结果 与 将 它们 作为 整体 来 
求解 的 结果 是 完全 一 致 的 。 在 结果 完全 相同 的 同时 ， SMO 算 法 的 求解 时 间 短 很 多 。 

SMO 算 法 的 目标 是 求 出 一 系列 alpha 和 b， 一旦 求 出 了 这 些 alpha， 就 很 容易 计算 出 权重 向 量 w 
并 得 到 分 隔 超 平面 。 

SMO 算 法 的 工作 原理 是 : 每 次 循环 中 选择 两 个 alpha 进 行 优化 处 理 。 一 旦 找到 一 对 合适 的 
alpha， 那 么 就 增 大 其 中 一 个 同时 减 小 另 一 个 。 这 里 所 谓 的 “合适 ”就 是 指 两 个 alpha 必 须要 符合 
一 定 的 条 件 , 条 件 之 一 就 是 这 两 个 alpha 必 须要 在 间隔 边界 之 外 , 而 其 第 二 个 条 件 则 是 这 两 个 alpha 
还 没有 进行 过 区 间 化 处 理 或 者 不 在 边界 上 。 


6.3.2 ”应 用 简化 版 SMO 算法 处 理 小 规模 数据 集 


Platt SMO 算 法 的 完整 实现 需要 大 量 代码 。 在 接 下 来 的 第 一 个 例子 中 ， 我 们 将 会 对 算法 进行 
简化 处 理 ， 以 便 了 解 算法 的 基本 工作 思路 ,之 后 再 基于 简化 版 给 出 完整 版 。 简 化 版 代码 虽然 量 少 
但 执行 速度 慢 。Platt SMO 算 法 中 的 外 循环 确定 要 优化 的 最 佳 alpha 对 。 而 简化 版 却 会 跳 过 这 一 部 
分 ， 首先 在 数据 集 上 遍历 每 一 个 alpha， 然 后 在 剩 下 的 alpha 集 合 中 随机 选择 另 一 个 alpha， 从 而 构 
建 alpha 对 。 这 里 有 一 点 相当 重要 ， 就 是 我 们 要 同时 改变 两 个 alpha。 之 所 以 这 样 做 是 因为 我 们 有 
一 个 约束 条 件 : 


D0 :label? =0 


由 于 改变 一 个 alpha 可 能 会 导致 该 约束 条 件 失效 ， 因 此 我 们 总 是 同时 改变 两 个 alpha。 





QD John C,Platt “Using Analytic QP and Sparseness to Speed Training of Support Vector Machines” in ddvances in Neural 
nformation Processing Systems 11, M. S. Keams, S.A. Solla, D. A. Cohn， eds(MIT Press, 1999), 557-63. 





6.3” ”SMO 高 效 优化 算法 95 





为 此 , 我 们 将 构建 一 个 辅助 函数 ， 用 于 在 某 个 区 间 范 围 内 随机 选择 一 个 整数 。 同 时 , 我们 也 
需要 另 一 个 辅助 函数 , 用 于 在 数值 太 大 时 对 其 进行 调整 。 下 面 的 程序 清单 给 出 了 这 两 个 函数 的 实 
现 。 读 者 可 以 打开 一 个 文本 编辑 器 将 这 些 代码 加 入 到 svmMLiA.py 文 件 中 。 


程序 清单 6-1 “SMO 算 法 中 的 辅助 函数 
def loadDataSet (fileName): 

dataMat = []; labelMat = [] 

fr = open (fileName) 

for line in fr.readlines(): 
lineArr = line.strip() .split('\t') 
dataMat .append{( [float (lineArr[0]), float {lineArr[1])]) 
labelMat .append (float (lineArr [2])) 

return dataMat, labelMat 


def selectJrand (i,m): 
j=i 
while (j==i): 
j = int (random.uniform(0,m)) 
return J 


def clipAlpha (aj,H,L): 
if aj > H: 


return aj 

在 testSet.txt 文 件 中 保存 了 图 6-3 所 给 出 的 数据 。 接 下 来 我们 就 将 在 这 个 文件 上 应 用 SMO 算 
法 。 程 序 清单 6-1 中 的 第 一 个 函数 就 是 我 们 所 熟知 的 1oadpatset () 函数 ， 该 函数 打开 文件 并 对 
其 进行 逐 行 解析 ， 从 而 得 到 每 行 的 类 标签 和 整个 数据 矩阵 。 

下 一 个 函数 selectJrand() 有 两 个 参数 值 , 其 中 i 是 第 一 个 alpha 的 下 标 , m 是 所 有 alpha 的 数 
目 。 只 要 序数 值 不 等 于 输入 值 i， 函 数 就 会 进行 随机 选择 。 

最 后 一 个 辅助 函数 就 是 c1ipalpha () ， 它 是 用 于 调整 大 于 H 或 小 于 L 的 alpha 值 。 尽 管 上 述 3 
个 辅助 函数 本 身 做 的 事情 不 多 ， 但 在 分 类 器 中 却 很 有 用 处 。 

在 输入 并 保存 程序 清单 6-1 中 的 代码 之 后 ， 运 行 如 下 命令 : 

2 re = SVMMLiA.lioadDataSet ('testSset .txt') 

>>> labelArr 


[-1.0, -1.0, 1.0, -1.0, 1.0, 1.0, 1.0, -1.0, .-1.0, -1.0, -1.0, -1.0, -1.0, 
1.0... 


可 以 看 得 出 来 ， 这 里 采用 的 类 别 标签 是 -1 和 1， 而 不 是 0 和 1。 
上 述 工作 完成 之 后 ， 就 可 以 使 用 SMO 算 法 的 第 一 个 版 本 了 。 
该 SMO 函 数 的 伪 代 码 大 致 如 下 : 


创建 一 个 alpha 向 量 并 将 其 初始 化 为 0 向 量 
当 迭 代 次 数 小 于 最 大 迭代 次 数 时 ( 外 循环 ) 
对 数据 集中 的 每 个 数据 向 量 ( 内 循环 ): 
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如 果 该 数据 向 量 可 以 被 优化 ; 

随机 选择 另外 一 个 数据 向 量 

同时 优化 这 两 个 向 量 

如 果 两 个 向 量 都 不 能 被 优化 ， 退 出 内 循环 

如 果 所 有 向 量 都 没 被 优化 ， 增 加 迭代 数目 ， 继 续 下 一 次 循环 
程序 清单 6-2 中 的 代码 是 SMO 算 法 的 一 个 有 效 版 本 。 在 Python 中 ， 如 果 某 行 以 \ 符 号 结束 ， 那 

么 就 意味 着 该 行 语句 没有 结束 并 会 在 下 一 行 延续 。 下面 的 代码 当中 有 很 多 很 长 的 语句 必须 要 分 成 
多 行 来 写 。 因 此 , 下 面 的 程序 中 使 用 了 多 个 \ 符 号 。 打 开 文件 vmMLiA.py 之 后 输入 如 下 程序 清单 
中 的 代码 。 


程序 清单 6-2 简化 版 SMO 算 法 


def smoSimple(dataMatIn, classLabels, C, toler, maxIter): 
dataMatrix = mat (dataMatIin) ， labelMat = mat (classLabels) .transpose{) 
b= 0; mn = shape(dataMatrix) 
alphas = mat {zeros( {(m,1))) 


iter = 0 

while {iter < maxIter): 
alphapairsChanged = 0 如 果 alpha 可 以 更 
for i in range (m) : 改进 入 优化 过 程 


ftXi = float (multiply (alphas, labelMat) .T*\ 
(dataMatrix*dataMatrix[i,:] .T)) + b 
Ei = fxi - float (labelMat [i]) 
if ((labelMat [i]*Ei < -toler) and (alphas [il < C)) or \ 
((labelMat [i]*Ei > toler) and \ 
(alphas fi] > 0)): 
j = selectJrand (i,m) 
£Xj = float (multiply (alphas, labelMat) .T*\ 
(dataMatrix*dataMatrix[j,:] .T)) + b 


Ej = fxj - float (labelMat [j}) 随机 选择 第 二 
alphaIold = alphas [i] .copy (); 个 aipha 
alphaJold = alphas [Jj] .copy(); 
if (labelMat [i] != labelMat [j]): 
L = max(0，alphas [j] - alphas [i]) 保证 alpha 在 0 
H = min(C, C + alphas[j] - alphas [i]) 与 C 之 间 
else: a 
L max(0，alphas [jj + alphas[i] - C) 


H = min(Cc, alphas[j] + alphas [i]) 

if L==H: print "L==H"; continue 

eta = 2.0 * dataMatrix[i,:]*dataMatrix[j,:].T -\ 
dataMatrixli,:]*dataMatrix[i,:] .T - \ 





dataMatrix[j,:]*dataMatrix[j,:] .T 和 
if eta >= 0: print “eta>=0"; continue 对 主 进 行 修改 ， 修 
alphas [jj -= labelMat [Jj]* (Ri - Ej)/eta 改 量 与 了 相同 ,但 
alphas[j] = clipAlpha (alphas[j],H,L) 方向 相反 


if (abs(alphas[j] - alphaJold) < 0.00001) : print \ 
"j not moving enough'"; continue 
alphas[i] += labelMat [j]*labelMat [i]*\ 
(alphaJold - alphas[j]) 
bl = b - Ei- labelMat [i]* (alphas [i] -alphaIold) *\ 





"| 
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dataMatrix[i,:]*dataMatrix[i,:].T - \ 
labelMat [jj* (alphas [j] -alphaJold) *\ 
, dataMatrix[i,:]*dataMatrix{[j,:] .T 
b2 = b - Ej- labelMat [i]* (alphas [i] -alphaIold)*\ 
dataMatrix[i,:]*dataMatrix[j,:] .T - \ 
labelMat [j]* (alphas [j] -alphaJold) *\ 设置 常数 项 
dataMatrix[j,:}*dataMatrix[j,:].T 
if (0 < alphas [i]) and (C > alphas[i]): b= bl 
elif (0 < alphas[j]) and (C > alphas[j]): b = b2 
else: b = (bl + b2)/2.0 
alphaPairsChanged += 1 
print "iter: %d i:%d, pairs changed $d" % \ 
{iter,i,aiphapairsChanged) 
if (alphapPairsChanged == 0): iter += 1 
else: iter = 0 
print "iteration number: %G" § iter 
return b,alphas 


这 个 函数 比较 大 ， 或 许 是 我 所 知道 的 本 书 中 最 大 的 一 个 函数 。 该 函数 有 5 个 输入 参数 ， 分 别 
是 : 数据 集 、 类 别 标签 、 常 数 c、 容 错 率 和 取消 前 最 大 的 循环 次 数 。 在 本 书 ， 我 们 构建 函数 时 采 
用 了 通用 的 接口 ， 这样 就 可 以 对 算法 和 数据 源 进行 组 合 或 配对 处 理 。 上 述 函 数 将 多 个 列表 和 输入 
参数 转换 成 NumPy 和 矩阵 ， 这 样 就 可 以 简化 很 多 数学 处 理 操作 。 由 于 转 置 了 类 别 标签 ， 因 此 我 们 得 
到 的 就 是 一 个 列 向 量 而 不 是 列表 。 于 是 类 别 标签 向 量 的 每 行 元 素 都 和 数据 矩阵 中 的 行 一 一 对 应 。 
我 们 也 可 以 通过 和 矩阵 aataMatIn 的 shape 属 性 得 到 常数 m 和 n。 最 后 ， 我 们 就 可 以 构建 一 个 alpha 列 
和 矩阵， 矩阵 中 元 素 都 初始 化 为 0， 并 建立 一 个 iter 变 量 。 该 变量 存储 的 则 是 在 没有 任何 alpha 改 变 
的 情况 下 遍历 数据 集 的 次 数 。 当 该 变量 达到 输入 值 mnaxTter 时 ， 函 数 结束 运行 并 退出 。 

每 次 循环 当中 ， 将 alphaPairschanged 先 设 为 0， 然 后 再 对 整个 集合 顺序 遍历 。 变 量 
alphaPairsChanged 用 于 记录 alpha 是 否 已 经 进行 优化 。 当 然 ， 在 循环 结束 时 就 会 得 知 这 一 点 。 
首先 ，fXi 能 够 计算 出 来 ， 这 就 是 我 们 预测 的 类 别 。 然 后 ， 基 于 这 个 实例 的 预测 结果 和 真实 结果 
的 比 对 ,就 可 以 计算 误差 Ei。 如 果 误 差 很 大 ， 那 么 可 以 对 该 数据 实例 所 对 应 的 alpha 值 进行 优化 。 
对 该 条 件 的 测试 处 于 上 述 程序 清单 的 @ 处 。 在 if 语 句 中 ， 不 管 是 正 间隔 还 是 负 间 隔 都 会 被 测试 。 
并 且 在 该 if 语句 中 ,也 要 同时 检查 alpha 值 ， 以 保证 其 不 能 等 于 0 或 C。 由 于 后 面 alpha 小 于 0 或 大 于 
C 时 将 被 调整 为 0 或 C， 所 以 一 旦 在 该 if 语句 中 它们 等 于 这 两 个 值 的 话 ,那么 它们 就 已 经 在 “边界 ” 
上 了 ， 因 而 不 再 能 够 减 小 或 增 大 ， 因 此 也 就 不 值得 再 对 它们 进行 优化 了 。 

接 下 来 ， 可 以 利用 程序 清单 6-1 中 的 辅助 函数 来 随机 选择 第 二 个 alpha 值 ， 即 alpharj] @。 
同样 ， 可 以 采用 第 一 个 alpha 值 (alphari] ) 的 误差 计算 方法 ， 来 计算 这 个 alpha 值 的 误差 。 这 个 
过 程 可 以 通过 copy () 的 方法 来 实现 ,因此 稍 后 可 以 将 新 的 alpha 值 与 老 的 alpha 值 进行 比较 .Python 
则 会 通过 引用 的 方式 传递 所 有 列表 ， 所 以 必须 明确 地 告知 Python 要 为 alphaTola 和 alphaJola 
分 配 新 的 内 存 ; 否则 的 话 ， 在 对 新 值 和 提 值 进行 比较 时 ,我 们 就 看 不 到 新 旧 值 的 变化 。 之 后 我 们 
开始 计算 cL 和 H 合 ,它们 用 于 将 alpha [j] 调 整 到 0 到 c 之 间 。 如 果 和 nH 相等 ， 就 不 做 任何 改变 ， 直 


_ 接 执行 continue 语 句 。 这 在 Python 中 ， 则 意味 着 本 次 循环 结束 直接 运行 下 一 次 for 的 循环 。 


Bta 是 alpha[j] 的 最 优 修改 量 ， 在 那个 很 长 的 计算 代码 行 中 得 到 。 如 果 eta 为 0， 那 就 是 说 
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需要 退出 for 循 环 的 当前 欠 代 过 程 。 该 过 程 对 真实 SMO 算 法 进行 了 简化 处 理 。 如 果 eta 为 0, 那么 
计算 新 的 alpha[j] 就 比较 麻烦 了 ， 这 里 我 们 就 不 对 此 进行 详细 的 介绍 了 。 有 和 需要 的 读者 可 以 阅 
读 Platt 的 原文 来 了 解 更 多 的 细节 。 现 实 中 ,这 种 情况 并 不 常 发 生 ， 因 此 忽略 这 一 部 分 通常 也 无 伤 
大 雅 。 于是, 可 以 计算 出 一 个 新 的 alpha[j], 然后 利用 程序 清单 6-1 中 的 辅助 函数 以 及 L 与 B 值 对 
其 进行 调整 。 

然后 ， 就 是 需要 检查 alpha[j] 是 否 有 轻微 改变 。 如 果 是 的 话 ， 就 退出 for 循 环 。 然 后 ， 
alpha[i] 和 alpha[j] 同 样 进行 改变 , 虽然 改变 的 大 小 一 样 , 但 是 改变 的 方向 正好 相反 ( 即 如 果 
一 个 增加 ,那么 另外 一 个 减少 ) @。 在 对 alpha[i] 和 alpha[j] 进 行 优化 之 后 ,给 这 两 个 alpha 
值 设置 一 个 常数 项 b@。 

最 后 ， 在 优化 过 程 结束 的 同时 ， 必 须 确 保 在 合适 的 时 机 结束 循环 。 如 果 程 序 执行 到 for 循 环 
的 最 后 一 行 都 不 执行 continue 语 句 ， 那 么 就 已 经 成 功 地 改变 了 一 对 alpha， 同 时 可 以 增加 
alphapairschanged 的 值 。 在 for 循 环 之 外 ， 需 要 检查 alpha 值 是 否 做 了 更 新 ， 如 果 有 更 新 则 将 
iter 设 为 0 后 继续 运行 程序 。 只 有 在 所 有 数据 集 上 遍历 maxTtezr 次 ， 且 不 再 发 生 任何 alpha 修 改 之 
后 ， 程 序 才 会 停止 并 退出 while 循 环 。 

为 了 解 实际 效果 ， 可 以 运行 如 下 命令 : 

>>> b,alphas = svmMLiA.smoSimple (dataArr, labelArr, 0.6, 0.001, 40) 
运行 后 输出 类 似 如 下 结果 : 


iteration number: 29 
j not moving enough 
iteration number: 30 
iter: 30 i:17, pairs changed 1 
j not moving enough 
iteration number: 0 
j not moving enough 
iteration number: 1 
上 述 运行 过 程 需要 几 分 钟 才 会 收敛 。 一 旦 运行 结束 ， 我 们 可 以 对 结果 进行 观察 
>>> b 
matrix([[-3.84064413]]) 


我 们 可 以 直接 观察 alpha 矩 阵 本 身 ， 但 是 其 中 的 零 元 素 太 多 。 为 了 观察 大 于 0 的 元 素 的 数量 ， 可 以 
输入 如 下 命令 : . 


>>> aiphas [alphas>0] 
matrix{[{ 0.12735413, 0.24154794, 0.36890208]]) 


由 于 SMO 算 法 的 随机 性 ,读者 运行 后 所 得 到 的 结果 可 能 会 与 上 述 结果 不 同 。 
alphas [alphas>0] 命 令 是 数组 过 滤 (array filtering ) 的 一 个 实例 , 而 且 它 只 对 NumPy 类 型 有 用 ， 
却 并 不 适用 于 Python 中 的 正则 表 ( regular list )。 如 果 输 入 alpha>0, 那么 就 会 得 到 一 个 布尔 数组 ， 
并 且 在 不 等 式 成 立 的 情况 下 ,其 对 应 值 为 正确 的 。 于 是 , 在 将 该 布尔 数组 应 用 到 原始 的 矩阵 当中 
时 ， 就 会 得 到 一 个 NumPy 和 矩阵 ， 并 且 其 中 矩阵 仅仅 包含 大 于 0 的 值 。 

为 了 得 到 支持 向 量 的 个 数 ， 输 入 ， 








: 
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>>> Shape (alphas [alphas>0] ) 


为 了 解 鄂 些 数据 点 是 支持 向 量 ， 输 入 : 


>>> for i in range{100): 
if alphas [i] >0.0: print dataArr[i],1labelArr[i] 


得 到 的 结果 类 似 如 下 : 


[4.6581910000000004, 3.507396] -1.0 
[3.4570959999999999,， -0.082215999999999997] -1.0 
[6.0805730000000002， 0.41888599999999998] 1.0 


在 原始 数据 集 上 对 这 些 支持 向 量 画 峰之 后 的 结果 如 图 6-4 所 示 。 
用 圆圈 标记 的 支持 向 量 
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图 6-4 示例 数据 集 上 运行 简化 版 ?MO 算法 后 得 到 的 结果 ， 包括 画 圈 的 支持 向 量 与 分 隔 超 平面 


利用 前 面 的 设置 ,我 运行 了 10 次 程序 并 取 其 平均 时 间 。 结 果 是 ， 这 个 过 程 在 一 台 性 能 较 差 的 
笔记 本 上 需要 14.5 秒 。 虽 然 结果 看 起 来 并 不 是 太 差 ， 但 是 别 忘 了 这 只 是 一 个 仅 有 100 个 点 的 小 规 
模 数据 集 而 已 。 在 更 大 的 数据 集 上 , 收敛 时 间 会 变 得 更 长 。 在 下 一 节 中 , 我们 将 通过 构建 完整 SMO 
算法 来 加 快 其 运行 速度 。 


6.4 利用 完整 Platt SMO 算法 加 速 优 化 


在 儿 百 个 点 组 成 的 小 规模 数据 集 上 , 简化 版 SMO 算 法 的 运行 是 没有 什么 问题 的 , 但 是 在 更 大 
的 数据 集 上 的 运行 速度 就 会 变 慢 。 刚 才 已 经 讨论 了 简化 版 SMO 算 法 ， 下 面 我 们 就 讨论 完整 版 的 
Platt SMO 算 法 。 在 这 两 个 版 本 中 ， 实 现 alpha 的 更 改 和 代数 运算 的 优化 环节 一 模 一 样 。 在 优化 过 
程 中 ， 唯 一 的 不 同 就 是 选择 alpha 的 方式 。 完 整 版 的 Platt SMO 算 法 应 用 了 一 些 能 够 提速 的 启发 方 
法 。 或 许 读者 已 经 意识 到 ， 上 一 节 的 例子 在 执行 时 存在 一 定 的 时 间 提 升 空间 。 

Platt SMO 算 法 是 通过 一 个 外 循环 来 选择 第 -一 个 alpha 值 的 ， 并 且 其 选择 过 程 会 在 两 种 方式 之 
间 进 行 交替 : 一 种 方式 是 在 所 有 数据 集 上 进行 单 遍 扫 描 , 另 一 种 方式 则 是 在 非 边界 alpha 中 实现 单 
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遍 扫描 。 而 所 谓 非 边界 alpha 指 的 就 是 那些 不 等 于 边界 0 或 C 的 alpha 值 。 对 整个 数据 集 的 扫描 相当 
容易 ， 而 实现 非 边 界 alpha 值 的 扫描 时 ， 首 先 需 要 建立 这 些 alpha 值 的 列表 ， 然 后 再 对 这 个 表 进 行 
遍历 。 同 时， 该 步 又 会 跳 过 那些 已 知 的 不 会 改变 的 alpha 值 。 

在 选择 第 一 个 alpha 值 后 ， 算 法 会 通过 一 个 内 循环 来 选择 第 二 个 alpha 值 。 在 优化 过 程 中 ， 会 
通过 最 大 化 步 长 的 方式 来 获得 第 二 个 alpha 值 。 在 简化 版 SMO 算 法 中 , 我 们 会 在 选择 j 之 后 计算 错 
误 率 Ej。 但 在 这 里 ， 我 们 会 建立 一 个 全 局 的 缓存 用 于 保存 误差 值 ， 并 从 中 选择 使 得 步 长 或 者 说 
Ei-Fj 最 大 的 alpha 值 。 | 

在 讲述 改进 后 的 代码 之 前 ， 我 们 必须 要 对 上 节 的 代码 进行 清理 。 下 面 的 程序 清单 中 包含 1 个 
用 于 清理 代码 的 数据 结构 和 3 个 用 于 对 进行 缓存 的 辅助 函数 。 我 们 可 以 打开 一 个 文本 编辑 器 , 输 
人 如 下 代码。 


程序 清单 6-3 ”完整 版 Platt SMO 的 支持 函数 


class optStruct: 
def init (self,dataMatIn, classLabels, C, toler): 
self.X = dataMatIn 
self.labelMat = classLabels 
self.C = C 
self.tol = toler 
self.m = shape (dataMatIn) [0] 
self.alphas = mat (zeros((self.m,1))) 
self.b = 0 了 
self.eCache = mat (zeros( (self.m,2))) 
def calcEk (oS, k): 
fxk = float (multiply (oS8.alphas,oS.labelMat).T*\ 
(OS.X*OS.X[k,:] .T)) + oS.b 
Ek = fXk - float(os.labelMat [k]) 
EOE .9 内 循环 中 的 启发 式 方法 
def seiectJ(i, oS8, Ei): 
maxK = -1; maxDeltaE = 0; Ej = 0 
oS.eCache[i] = {1,Ei] 
validEcacheList = nonzerol(oS.eCache[:,0] .A) {0] 
if (len(validEcacheList)) > 1: 
for k in validEcacheList: 
if k == i: continue 
Ek = calcEk (oS, k) 
deltaE = abs (Ei - Ek) 


if (deltaE > maxDeltaE): 选择 具有 最 大 
maxK = k; maxpeltaE = deltaE; Ej} = Ek 步 长 的 j 
return maxK, Ej 
else: 
j = selectJrand(i, oS8.m) 


Ej = calcEk (oS, j) 
return j, Ej 


be 
全 
mh 


updateEk (oS, k): 
Ek = calcEk (oS, Kk) 
oS.eCache[k] = [1,EKk] 
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首要 的 事情 就 是 建立 一 个 数据 结构 来 保存 所 有 的 重要 值 , 而 这 个 过 程 可 以 通过 一 个 对 象 来 完 
成 。 这 里 使 用 对 象 的 目的 并 不 是 为 了 面向 对 象 的 编程 ， 而 只 是 作为 一 个 数据 结构 来 使 用 对 象 。 在 
将 值 传 给 函数 时 , 我 们 可 以 通过 将 所 有 数据 移 到 一 个 结构 中 来 实现 , 这 样 就 可 以 省 掉 手 工 输入 的 
麻烦 了 。 而 此 时 ， 数 据 就 可 以 通过 一 个 对 象 来 进行 传递 。 实 际 上 ， 当 完成 其 实现 时 ， 可 以 很 容易 


”通过 Python 的 字典 来 完成 。 但 是 在 访问 对 象 成 员 变量 时 ， 这 样 做 会 有 更 多 的 手工 输入 操作 ， 对 比 


一 人 myobject .Xx 和 和 myobject['x'] 就 可 以 知道 这 一 点 。 为 达到 这 个 目的 , 需要 构建 一 个 仅 包含 
init 方 法 的 optstruct 类 。 该 方法 可 以 实现 其 成 员 变量 的 填充 。 除 了 增加 了 一 个 mx2 的 矩阵 成 
员 变 量 ecache 之 外 全 ， 这 些 做 法 和 简化 版 ?MO 一 模 一 样 。ecache 的 第 一 列 给 出 的 是 ecache 是 
否 有 效 的 标志 位 ， 而 第 二 列 给 出 的 是 实际 的 E 值 。 

对 于 给 定 的 alpha 值 ， 第 一 个 辅助 函数 calcEk () 能够 计算 E 值 并 返回 。 以 前 , 该 过 程 是 采用 内 要 
的 方式 来 完成 的 , 但 是 由 于 该 过 程 在 这 个 版 本 的 SMO 算 法 中 出 现 频 繁 , 这 里 必须 要 将 其 单独 擒 出 来 。 

下 一 个 函数 selectJ() 用 于 选择 第 二 个 alpha 或 者 说 内 循环 的 alpha 值 @。 回 想 一 下 ， 这 里 的 
目标 是 选择 合适 的 第 二 个 alpha 值 以 保证 在 每 次 优化 中 采用 最 大 步 长 。 该 函数 的 误差 值 与 第 一 个 
alpha 值 si 和 下 标 i 有 关 。 首 先 将 输入 值 Bi 在 缓存 中 设置 成 为 有 效 的 。 这 里 的 有 效 ( valid ) 意味 着 
它 已 经 计算 好 了 。 在 ecache 中 , 代码 nonzero (oS .eCcache[ : ,0] .A) [0] 构 建 出 了 一 个 非 零 表 。 
NumPy 函 数 nonzero () 返 回 了 一 个 列表 ， 而 这 个 列表 中 包含 以 输入 列表 为 目录 的 列表 值 ， 当 然 
读者 可 以 猜 得 到 ， 这 里 的 值 并 非 零 。nonzero () 语 名 返回 的 是 非 零 E 值 所 对 应 的 alpha 值 ， 而 不 是 
E 值 本 身 。 程 序 会 在 所 有 的 值 上 进行 循环 并 选择 其 中 使 得 改变 最 大 的 那个 值 @。 如 果 这 是 第 一 次 
循环 的 话 , 那么 就 随机 选择 一 个 alpha 值 。 当 然 , 也 存在 有 许多 更 复杂 的 方式 来 处 理 第 一 次 循环 的 
情况 ， 而 上 述 做 法 就 能 够 满足 我 们 的 目的 。 

程序 清单 6-3 的 最 后 一 个 辅助 函数 是 updateEk () ， 它 会 计算 误差 值 并 存 人 缓存 当中 。 在 对 
alpha 值 进行 优化 之 后 会 用 到 这 个 值 。 

程序 清单 6-3 中 的 代码 本 身 的 作用 并 不 大 ， 但 是 当 和 优化 过 程 及 外 循环 组 合 在 一 起 时 ， 就 能 
组 成 强大 的 SMO 算 法 。 

接 下 来 将 简单 介绍 一 下 用 于 寻找 决策 边界 的 优化 例 程 。 打 开 文本 编辑 器 , 添加 下 列 清单 中 的 
代码 。 在 前 面 ， 读 者 已 经 看 到 过 下 列 代 码 的 另外 一 种 形式 。 


程序 清单 6-4 ”完整 Platt SMO 算 法 中 的 优化 例 程 
def innerL(i, oS): | 
Ei = calcEk (oS, i) 


if ((oS.1iabelMat [i]*Ei < -oS.tol) and (oS8.alphas[i] < o08.C)) or\ 
((oS.labelMat [i]*Ei > oS.tol) and {oS.alphas[i)} > 0)): 
j,Ej = selectJ(i, oS, Ei) 
alphalold = oS.alphas[i] .copy{(); alphaJold = oS.alphas[j] .copy (); 


if (oS.labelMat [il != oS.labelMat[j]): 

L = max(0, oS.alphas{[j] - oS.alphas[i]) 

H = minl(oS.C, oS.C + oS.alphas[j] - oS.alphas [i]) 
else: 


L = max(0, oS.alphas[j] + oS.alphas[i] - oS.c) 
H = min{(oS.C, oS.alphas{j] + oS.alphas [i]) 


| 


| 
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if L==H: print "L==H'"; return 0 
eta = 2.0 * OS.X[i,:]*oS.X[j,:] .T - oS.X[i,:]*oS.X[i,:] .T - \ 
OS.X[j,:]*oS.X[j,:] .T 
if eta >= 0: print “eta>=0'"; return 0 
oS.alphas{j] = clipAlpha(os.alphas[j],H,L) 2 
updateEk (oS, j) 
if (abs(oS.alphas[j] - alphaJold) < 0.00001) : 
print "j not moving enough*; return 0 
oS.alphas [il += oS.labelMat [j] *oS.1abelMat [i]*\ 
(alphaJold - oS.alphas [jl) wy 更 新 误差 缓存 
updateEk (oS, i) 
OS.X[i,:]*oS.X[i,:] .T - oS.labelMat [j]*\ 
(oS.alphas{j] -alphaJold) *oSs.xX{i,:]*oS.X[j,:] .7 
b2 = oS8.b - Ej- oS.labelMat [i]j*(oS8.alphas[{[i]-alphaIold) *\ 
OS.X[i,:]*oS.X[j,.:] .T - oS.labelMat [j]*\ 
(oS.alphas[j]-alphaJold) *oS.X[j,:]*oS.X[j,:] .T 
if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i}): oS.b = bl 
elif (0 < oS.alphas[j]) and (oS.C > oS.alphas{j]): oS.b = b2 
return 1 
else: return 0 
程序 清单 6-4 中 的 代码 几乎 和 程序 清单 6-2 中 给 出 的 smosimple() 函数 一 模 一 样 , 但 是 这 里 的 
代码 已 经 使 用 了 自己 的 数据 结构 。 该 结构 在 参数 os 中 传递 。 第 二 个 重要 的 修改 就 是 使 用 程序 清单 
6-3 中 的 SelectJ() 而 不 是 selectJrand() 来 选择 第 二 个 alpha 的 值 @@。 最 后 ， 在 alpha 值 改变 时 
更 新 Ecache@。 程序 清单 6-5 将 给 出 把 上 述 过 程 打包 在 一 起 的 代码 片段 。 这 就 是 选择 第 一 个 alpha 
值 的 外 循环 。 打 开 文 本 编辑 器 将 下 列 代码 加 入 到 svmMLiA.py 文 件 中 。 
def smoP (dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)): 
o8 = optStruct (mat (dataMatIn) ,mat (classLabels) .transpose(),C,toler) 
iter = 0 
entireSet = True; alphapairsChanged = 0 
while (iter < maxIter) and ({alphapPairsChanged > 0) or {entireset)): 
alphapairsChanged = 0 
if entireSet: 
0 遍历 所 有 的 值 
alphapairsChanged += innerL(i,oS) 
print "fullSet, iter: %d i:%d, pairs changed %d" $%\ 
(iter,i,alphapairsChanged) 
iter += 1 We ss 
else: 
for i in nonBoundIs: 
alphapairsChanged += innerL{(i,oSs) 
print "non-bound, iter: %d i:%d, pairs changed %d" $ \ 
(iter,i,alphapairsChanged) 


oS.alphas{[j] -= oS.labelMat [j]*(Ei - Ej)/eta 
bl = oS.b - Ei- oS.labelMat [il* (os.alphas[il]-alphaIlold)*\ 
else: oS.b = (bl + b2)/2.0 
程序 清单 6-5 ”完整 版 Platt SMO 的 外 循环 代码 
for i in range (osS ,m) : 
nonBoundIs = nonzero( (0o8.alphas.A > 0) * (oS.alphas.A < C)) [0] 
iter += 1 


if entireSet: entireSet = False 
elif (alphapairsChanged == 0) : entireSet = True 
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print "iteration number: gd" % iter 
return oS.b,oS.alphas 


程序 清单 6-5 给 出 的 是 完整 版 的 Platt SMO 算 法 ， 其 输入 和 函数 smosimple () 完全 一 样 。 函 数 
一 开始 构建 一 个 数据 结构 来 容纳 所 有 的 数据 ， 然 后 需要 对 控制 函数 退出 的 一 些 变量 进行 初始 化 。 
整个 代码 的 主体 是 while 循 环 , 这 与 smosimple() 有 些 类 似 ,但 是 这 里 的 循环 退出 条 件 更 多 一 些 。 
当 迭 代 次 数 超过 指定 的 最 大 值 ， 或 者 遍历 整个 集合 都 未 对 任意 alpha 对 进行 修改 时 ， 就 退出 循环 。 
这 里 的 maxIter 变 量 和 函数 smosimple() 中 的 作用 有 一 点 不 同 ， 后 者 当 没有 任何 alpha 发 生 改 变 
时 会 将 整个 集合 的 一 次 遍历 过 程 计 成 一 次 近代 , 而 这 里 的 一 次 迭代 定义 为 一 次 循环 过 程 ,而 不 管 
该 循环 具体 做 了 什么 事 。 此 时 ， 如 果 在 优化 过 程 中 存在 波动 就 会 停止 ， 因 此 这 里 的 做 法 优 于 
smosimple () 函数 中 的 计数 方法 。 

while 循 环 的 内 部 与 snosimple () 中 有 所 不 同 ， 一 开始 的 for 循 环 在 数据 集 上 遍历 任意 可 能 
的 alpha@。 我 们 通过 调用 innerL () 来 选择 第 二 个 alpha， 并 在 可 能 时 对 其 进行 优化 处 理 。 如 果 有 
任意 一 对 alpha 值 发 生 改 变 ， 那 么 会 返回 1。 第 二 个 fo 循环 遍历 所 有 的 非 边 界 alpha 值 ， 也 就 是 不 
在 边界 0 或 c 上 的 值 @。 

接 下 来 ， 我 们 对 foz 循 环 在 非 边界 循环 和 完整 遍历 之 间 进 行 切换 ， 并 打印 出 迭代 次 数 。 最 后 
程序 将 会 返回 常数 b 和 alpha 值 。 | 

为 观察 上 述 执行 效果 ， 在 Python 提 示 符 下 输入 如 下 命令 : 

>>> dataArr,labelArr = svmMLiA.loadDataSet ('testSet.txt') 

>>> b,alphas = svmMLiA,.smoPp (dataArr, labelArr, 0.6, 0.001, 40) 

non-bound, iter: 2 i:54, pairs changed 0 

non-bound, iter: 2 i:55, pairs changed 0 

iteration number: 3 

fullSet, iter: 3 i:0, pairs changed 0 


fullSet, iter: 3 i:1, pairs changed 0 
fullSset, iter: 3 i:2, pairs changed 0 


类 似 地 , 读者 也 可 以 检查 b 和 多 个 alpha 的 值 。 那 么 ， 相 对 于 简化 版 SMO 算 法 ， 上 述 方 法 是 否 
更 快 ? 基 于 前 面 给 出 的 设置 在 我 自己 简陋 的 笔记 本 上 运行 10 次 算法 , 然后 求 平均 值 ， 最 后 得 到 的 
结果 是 0.78 秒 。 而 在 同样 的 数据 集 上 ，smosimple () 函数 平均 需要 14.5 秒 。 在 更 大 规模 的 数据 集 
上 结果 可 能 更 好 ,另外 也 存在 很 多 方法 可 以 进一步 提升 其 运行 速度 。 

如 果 修 改 容错 值 结 果 会 怎样 ?如 果 改 变 c 的 值 又 如 何 呢 ? 在 6.2 节 末尾 曾经 粗 咯 地 提 到 ， 常 数 
c 给 出 的 是 不 同 优化 问题 的 权重 。 常 数 c 一 方面 要 保障 所 有 样 例 的 间隔 不 小 于 1.0， 另 一 方面 又 要 
使 得 分 类 间隔 要 尽 可 能 大 ， 并 且 要 在 这 两 方面 之 间 平 衡 。 如 果 c 很 大 ， 那 么 分 类 器 将 力图 通过 分 
隔 超 平面 对 所 有 的 样 例 都 正确 分 类 。 这 种 优化 的 运行 结果 如 图 6-5 所 示 。 与 图 6-4 相 比 ， 会 发 现 图 
6-5 中 的 支持 向 量 更 多 。 如 果 回 想 一 下 ， 就 会 记得 图 6-4 实 际 来 自 于 简化 版 算法 ， 该 算法 是 通过 随 
机 的 方式 选择 alpha 对 的 。 这 种 简单 的 方式 也 可 以 工作 , 但 是 效果 却 不 如 完整 版 本 好 , 后 者 覆盖 了 
整个 数据 集 。 读 者 可 能 还 认为 选 出 的 支持 向 量 应 该 始终 最 接近 分 隔 超 平面 。 给 定 c 的 设置 ， 图 中 
画 圈 的 支持 向 量 就 给 出 了 满足 算法 的 一 种 解 。 如 果 数 据 集 非 线性 可 分 ， 就 会 发 现 支持 向 量 会 在 超 
平面 附近 聚集 成 团 。 
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_ 用 圆圈 标记 的 支持 向 量 
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图 6-5 在 数据 集 上 运行 完整 版 SMO 算 法 之 后 得 到 的 支持 向 量 ， 其 结果 与 图 6-4 稍 有 不 同 


读者 可 能 会 想 ， 刚才 我 们 花 了 大 量 时 间 来 计算 那些 alpha 值 ， 但 是 如 何 利 用 它们 进行 分 类 呢 ? 
这 不 成 问题 ， 首 先 必 须 基 于 alpha 值 得 到 超 平面 ， 这 也 包括 了 w 的 计算 。 下 面 列 出 的 一 个 小 函数 可 
以 用 于 实现 上 述 任务 ， 
def calcWs (alphas, dataArr,classLabels): 
X= matl(dataArr); labelMat = mat (classLabels) .transpose () 
m,n = shape (xX) 
Ww = Zeros{{n,1)) 
for i in range (m) : 
w += multiply (alphas [i] *labelMat [i] ,X[i,:].T) 
return w 


上 述 代码 中 最 重要 的 部 分 是 tor 循环， 虽然 在 循环 中 实现 的 仅仅 是 多 个 数 的 乘积 。 看 一 下 前 
面 计算 出 的 任何 一 个 atpha, 就 不 会 忘记 大 部 分 alpha 值 为 0。 而 非 零 alpha 所 对 应 的 也 就 是 支持 向 量 。 
虽然 上 述 for 循 环 遍历 了 数据 集中 的 所 有 数据 ， 但 是 最 终 起 作用 只 有 支持 向 量 。 由 于 对 w 计 算 毫 


无 作用 ， 所 以 数据 集 的 其 他 数据 点 也 就 会 很 容易 地 被 舍弃 。 


为 了 使 用 前 面 给 出 的 函数 ， 输 入 如 下 命令 : 


>>> ws=SsSVvmMLIiA.calcWs (alphas, dataArr, labelArr) 
>>> WS 
array ([{[ 0.65307162], 

[-0.17196128] ]) 


现在 对 数据 进行 分 类 处 理 ， 比 如 对 说 第 一 个 数据 点 分 类 ， 可 以 这 样 输入 ; 


>>> datMat=mat (dataArr) 
>>> datMat [0] *mat (ws) +b 
matrix({[-0.92555695]]) 


如 果 该 值 大 于 0,， 那么 其 属于 1 类 ; 如 果 该 值 小 于 0, 那么 则 属于 -1 类 。 对 于 数据 点 0， 应 该 得 到 的 
类 别 标 签 是 -1， 可 以 通过 如 下 的 命令 来 确认 分 类 结果 的 正确 性 ， 

>>> labelArr [0] 

-1.0 
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还 可 以 继续 检查 其 他 数据 分 类 结果 的 正确 性 ; 


>>> datMat [2] *mat (ws) +b 
matrix([[ 2.30436336]]) 

>>> labelArr[2] 

1.0 

>>> datMat [1] *mat (ws) +b 

matrix([[-1.36706674] ]) 

>>> labelArr[1] 

-1.0 


读者 可 将 该 结果 与 图 6-5 进 行 比较 以 确认 其 有 效 性 。 

我 们 现在 可 以 成 功 训练 出 分 类 器 了 ，, 我 想 指 出 的 就 是 , 这 里 两 个 类 中 的 数据 点 分 布 在 一 条 直 
线 的 两 边 。 看 一 下 图 6-1， 大 概 就 可 以 得 到 两 类 的 分 隔 线 形状 。 但 是 ， 倘 车 两 类 数据 点 分 别 分 布 
在 一 个 圆 的 内 部 和 外 部 , 那么 会 得 到 什么 样 的 分 类 面 呢 ? 下 一 节 将 会 介绍 一 种 方法 对 分 类 器 进行 
修改 ， 以 说 明 类 别 区 域 形状 不 同情 况 下 的 数据 集 分 隔 问 题 。 


6.5 在 复杂 数据 上 应 用 核 函 数 


考虑 图 6-6 给 出 的 数据 ， 这 有 点 像 图 6-1 的 方 框 C 中 的 数据 。 前 面 我 们 用 这 类 数据 来 描述 非 线 
性 可 分 的 情况 。 显而易见 ， 在 该 数据 中 存在 某 种 可 以 识别 的 模式 。 其 中 一 个 问题 就 是 , 我 们 能 否 
像 线性 情况 一 样 ， 利 用 强大 的 工具 来 捕捉 数据 中 的 这 种 模式 ? 显然 , 答案 是 肯定 的 。 接 下 来 , 我 
们 就 要 使 用 一 种 称 为 核 函 数 (kernel ) 的 工具 将 数据 转换 成 易于 分 类 器 理解 的 形式 。 本 节 首 先 解 
释 核 函数 的 概念 ,并 介绍 它们 在 支持 向 量 机 中 的 使 用 方法 。 然 后 ,介绍 一 种 称 为 径 向 基 吨 数 (radial 
bias function ) 的 最 流行 的 核 函 数 。 最 后 ， 将 该 核 函 数 应 用 于 我 们 前 面 得 到 的 分 类 器 。 


核 方法 中 的 非 线性 可 分 数据 


1,5 


1.0 


0.5 


0.0 





图 6-6 ”这 个 数据 在 二 维 平面 中 很 难 用 一 条 直线 分 隔 ， 不 过 很 明显 ， 这 里 存在 分 隔 方形 
点 和 圆 形 点 的 模式 站 5 
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6.5.1 利用 核 函 数 将 数据 映射 到 高 维 空间 


在 图 6-6 中 ， 数 据点 处 于 一 个 圆 中 ， 人 类 的 大 脑 能 够 意识 到 这 一 点 。 然 而 ， 对 于 分 类 器 而 言 ， 
它 只 能 识别 分 类 器 的 结果 是 大 于 0 还 是 小 于 0。 如 果 只 在 x 和 y 轴 构成 的 坐标 系 中 插入 直线 进行 分 类 
的 话 , 我 们 并 不 会 得 到 理想 的 结果 。 我 们 或 许可 以 对 圆 中 的 数据 进行 某 种 形式 的 转换 ， 从 而 得 到 
某 些 新 的 变量 来 表示 数据 。 在 这 种 表示 情况 下 ， 我 们 就 更 容易 得 到 大 于 0 或 者 小 于 0 的 测试 结果 。 
在 这 个 例子 中 , 我 们 将 数据 从 一 个 特征 空间 转换 到 另 一 个 特征 空间 。 在 新 空间 下 , 我 们 可 以 很 容 
易 利 用 已 有 的 工具 对 数据 进行 处 理 。 数 学 家 们 喜欢 将 这 个 过 程 称 之 为 从 一 个 特征 空间 到 另 一 个 特 
征 空 间 的 映射 。 在 通常 情况 下 ， 这 种 映射 会 将 低 维特 征 空间 喘 射 到 高 维 空间 。 

这 种 从 某 个 特征 空间 到 另 一 个 特征 空间 的 映射 是 通过 核 函数 来 实现 的 。 读 者 可 以 把 核 函数 想 
象 成 一 个 包装 器 〈 wrapper ) 或 者 是 接口 ( interface )， 它 能 把 数据 从 某 个 很 难处 理 的 形式 转换 成 
为 另 一 个 较 容 易 处 理 的 形式 。 如 果 上 述 特征 空间 喘 射 的 说 法 听 起 来 很 让 人 迷糊 的 话 , 那么 可 以 将 
它 想象 成 为 男 外 一 种 距离 计算 的 方法 。 前 面 我 们 提 到 过 距离 计算 的 方法 。 距离 计 算 的 方法 有 很 多 
种 , 不久 我 们 也 将 看 到 ， 核 函数 一 样 具 有 多 种 类 型 。 经 过 空间 转换 之 后 ,我们 可 以 在 高 维 空 间 中 
解决 线性 问题 ， 这 也 就 等 价 于 在 低 维 空间 中 和 解决 非 线性 问题 。 | 

SVM 优 化 中 一 个 特别 好 的 地 方 就 是 ， 所 有 的 运算 都 可 以 写成 内 积 (innerproduct， 也 称 点 积 
的 形式 。 向 量 的 内 积 各 的 是 两 个 向 量 相 乘 ， 之 后 得 到 单个 标量 或 者 数值 。 我 们 可 以 把 内 积 运算 替 
换 成 核 函 数 ， 而 不 必 做 简化 处 理 。 将 内 积 替 换 成 核 函 数 的 方式 被 称 为 核 技巧 (kernel trick ) 或 者 
核 “ 变 电 ”( kernel substation )。 

核 函 数 并 不 仅仅 应 用 于 支持 向 量 机 ， 很 多 其 他 的 机 器 学 习 算 法 也 都 用 到 核 画 数 。 接 下 来 , 我 
们 将 要 来 介绍 一 个 流行 的 核 函 数 ， 那 就 是 径 向 基 核 函数 。 


6.5.2 径 向 基 核 函数 ， 


径 向 基 函 数 是 SVM 中 常用 的 一 个 核 函 数 。 径 向 基 函 数 是 一 个 采用 向 量 作为 自 变 量 的 函数 , 能 
够 基于 向 量 距离 运算 输出 一 个 标量 。 这 个 距离 可 以 是 从 <0,0> 向 量 或 者 其 他 向 量 开始 计算 的 距离 。 
接 下 来 ， 我 们 将 会 使 用 到 径 向 基 函 数 的 高 斯 版 本 ， 其 具体 公式 为 : 


k(x, y) = “5 


20 


其 中 ，o 是 用 户 定义 的 用 于 确定 到 达 率 ( reach ) 或 者 说 函数 值 跌落 到 0 的 速度 参数 。 

上 述 高 斯 核 浮 数 将 数据 从 其 特征 空间 映射 到 更 高 维 的 空间 , 具体 来 说 这 里 是 映射 到 一 个 无 穷 
维 的 空间 。 关 于 无 穷 维 空间 , 读者 目前 不 需要 太 担心 。 高 斯 核 函数 只 是 一 个 常用 的 核 函 数 , 使 用 
者 并 不 需要 确切 地 理解 数据 到 底 是 如 何 表 现 的 ， 而 且 使 用 高 斯 核 函数 还 会 得 到 一 个 理想 的 结果 。 
在 上 面 的 例子 中 , 数据 点 基本 上 都 在 一 个 圆 内 。 对 于 这 个 例子 , 我 们 可 以 直接 检查 原始 数据 ， 并 
意识 到 只 要 度量 数据 点 到 圆心 的 距离 即 可 。 然 而 ， 如 果 磁 到 了 一 个 不 是 这 种 形式 的 新 数据 集 , 那 
么 我 们 就 会 陷 人 困境 。 在 该 数据 集 上 ， 使 用 高 斯 核 函 数 可 以 得 到 很 好 的 结果 。 当 然 ， 该 函数 也 可 
以 用 于 许多 其 他 的 数据 集 ， 并 且 也 能 得 到 低 错 误 率 的 结果 。 
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如 果 在 svmMLiA.py 文 件 中 添加 一 个 函数 并 稍 做 修改 ， 那 么 我 们 就 能 够 在 已 有 代码 中 使 用 核 
函数 。 首 先 ， 打 开 svMLiA.py 代 码 文件 并 输入 函数 kernelTrans () 。 然 后 ， 对 optStruct 类 进 


行 修改 ， 得 到 类 似 如 下 程序 清单 6-6 的 代码 。 


程序 清单 6-6” 核 转换 函数 
def kernelTrans (xX, A, kTup): 
mn = Shape(X) 
K = mat(zeros((m,1))) 
if kTup [0]=='1in': K = X* A.T 
elif kTup[0]=='rbf'.: 
for j in range(m): 
deltaRow = X{j,:] - A 
K{j) = deltaRow*deltaRow.T .9 元 素 间 的 除法 
K = exp(K /(-1i*kTup [1]**2)) 
else: raise NameError('Houston We Have a Problem -- \ 
That Kernel is not recognized') 
return K 


class optstruct: 
def _ init _ (self,dataMatIn, classLabels, C, toler, kTup): 
self .Xx = dataMatIn 
self.labelMat = classLabels 
self.C=C 
self.tol = toler 
self.m = shape (dataMatIn) [0] 
self.alphas = mat (zeros((self.m,1))) 
self.bp = 0 
self.eCache = mat (zeros((self.m,2))) 
Self.K = mat (zeros({(self.m,self.m))) 
for i in range(self.m): 
self.K[:,i] = kernelTrans (self.X, self.X[i,:], kTup) 


我 建议 读者 最 好 看 一 下 optstruct 类 的 新 版 本 。 除了 引入 了 一 个 新 变量 kTup 之 外 ,该 版 本 和 
原来 的 optstruct 一 模 一 样 。kTup 是 一 个 包含 核 函 数 信 息 的 元 组 , 待 会 儿 我 们 就 能 看 到 它 的 作用 
了 。 在 初始 化 方法 结束 时 ， 和 矩阵 k 先 被 构建 ， 然 后 再 通过 调用 函数 kernelTrans () 进行 填充 。 全 
局 的 k 值 只 需 计 算 一 次 。 然 后 ， 当 想 要 使 用 核 函数 时 ， 就 可 以 对 它 进 行 调用 。 这 也 省 去 了 很 多 元 
余 的 计算 开销 。 

当 计 算 和 矩阵 Kk 时 ,该 过 程 多 次 调用 了 函数 kernelTrans ()。 该 函数 有 3 个 输入 参数 ; 2 个 数值 
型 变量 和 1 个 元 组 。 元 组 kTup 给 出 的 是 核 函 数 的 信息 。 元 组 的 第 一 个 参数 是 描述 所 用 核 函 数 类 型 
的 一 个 字符 串 ， 其 他 2 个 参数 则 都 是 核 函数 可 能 需要 的 可 选 参数 。 该 函数 首先 构建 出 了 一 个 列 向 
量 ,然后 检查 元 组 以 确定 核 函数 的 类 型 。 这 里 只 给 出 了 2 种 选择 ,但 是 依然 可 以 很 容易 地 通过 添 
加 elif 语 句 来 扩展 到 更 多 选项 。 

在 线性 核 函 数 的 情况 下 ， 内 积 计算 在 “所 有 数据 集 ” 和 “数据 集中 的 一 行 ” 这 两 个 输入 之 间 
展开 。 在 径 向 基 核 函数 的 情况 下 , 在 for 循 环 中 对 于 矩阵 的 每 个 元 素 计 算 高 斯 函数 的 值 。 而 在 for 
循环 结束 之 后 , 我们 将 计算 过 程 应 用 到 整个 向 量 上 去 。 值 得 一 提 的 是 , 在 NumPy 矩 阵 中 ， 除 法 符 
号 意味 着 对 矩阵 元 素 展开 计算 而 不 像 在 MATLAB 中 一 样 计算 矩阵 的 逆 @。 
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最 后 ,如 果 遇 到 一 个 无 法 识别 的 元 组 , 程序 就 会 抛 出 异常 ,因为 在 这 种 情况 下 不 希望 程序 再 
继续 运行 ， 这 一 点 相当 重要 。 

为 了 使 用 核 函 数 ， 先期 的 两 个 函数 innerL () 和 calcEk() 的 代码 需要 做 些 修改 。 修改 的 结果 
参见 程序 清单 6-7。 本 来 我 并 不 想 这 样 列 出 代码 ， 但 是 重新 列 出 函数 的 所 有 代码 需要 超过 90 行 ， 


我 想 任 何人 都 不 希望 这 样 。 读 者 可 以 直接 从 下 载 的 源码 中 复制 代码 段 ， 而 不 必 对 修改 片段 进行 手 


工 输入 。 下 面 列 出 的 就 是 修改 的 代码 片段 。 
序 清单 6-7 ”使 用 核 函 数 时 需要 对 innerL () 及 calcEk() 函数 进行 的 修改 


innerL(): 
eta = 2.0 * oS.K[i,j] - oS.K[i,i] - oS.K[j,j] 


bi = oS.b - Ei- oS.1labelMat [i]* (osS.alphas {i] -alpharold) *oS.K[i,i) -\ 
oS.1labelMat [j]* (os.alphas [j] -alphaJold) *os.K[i,j] 
b2 = oS.b - Ej- oS.labelMat [i] * (os.alphas [i] -alphaIold) *os,K[i,j]-\ 
oS.labelMat [j]* (osS.alphas [j] -alphaJold) *os.K[j,]j] 


def calcEk (oS, k): 
fxk = float (multiply (oS.alphas,oS.1labelMat) .Txos.K[:,k] + OS.b) 
Ek = fxk - float (os.labelMat [xk]) 
return Ek 


你 已 经 了 解 了 如 何在 训练 过 程 中 使 用 核 函数 , 接 下 来 我 们 就 去 了 解 如 何在 测试 过 程 中 使 用 核 
函数 。 


6.5.3 在 测试 中 使 用 核 函 数 


接 下 来 我 们 将 构建 一 个 对 图 6-6 中 的 数据 点 进行 有 效 分 类 的 分 类 器 ， 该 分 类 器 使 用 了 径 向 基 
核 函 数 。 前 面 提 到 的 径 向 基 函 数 有 一 个 用 户 定义 的 输入 e 。 首 先 ,我 们 需要 确定 它 的 大 小 ,然后 
利用 该 核 函数 构建 出 一 个 分 类 器 。 整个 测试 函数 将 如 程序 清单 6- 8 所 示 。 读 者 也 可 以 打开 一 个 文 
本 编辑 器 ， 并 且 加 入 函数 testRbf () 。 


程序 清单 6-8 ”利用 核 函 数 进行 分 类 的 径 向 基 测 试 函 数 
def testRbf (kl=1.3): 

dataaArr, labelArr = loadDataSet ('testSetRBF.txt') 
b,alphas = smoP (dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1)) 
datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 
svIind=nonzero (alphas .A>0) [0] 
sVvs=datMat [svInd] 

labelsyv = labelMat [svIind]} ; 


“本 @ 构建 支持 向 量 矩阵 


ES 
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print "there are %d Support Vectors' % shape(sVs) [0] 

m,n = shape (datMat) 

errorCount = '0 

for i in range (m) : 
kernelEval = kernelTrans(sVs,datMat [i,:],('rbf', k1)) 
predict=kernelEval.T * multiply (labelSV,alphas[svIind]) + b 
if sign(predict) !=sign(labelArr[i]): errorCount += 1 

print "the training error rate is: %f" % (float (errorCount)/m) 

dataArr, labelArr = loadDataset (' testSetRBF2.txt') 

errorCount = 0 

datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 

m,n = shape (datMat) 

for i in range (m) : 
kernelEval = kernelTrans (sVs,datMat[i,:], ('rbf', k1)) 
predict=kernelEval.T * multiply(labelSV,alphas [svIind]) + b 
if sign(predict) !=sign(labelArr[i]): errorCount += 1 

print "the test error rate is: %f" % {float (errorCount)/m) 


上 述 代码 只 有 一 个 可 选 的 输入 参数 ， 该 输入 参数 是 高 斯 径 向 基 函 数 中 的 一 个 用 户 定义 变量 。 
整个 代码 主要 是 由 以 前 定义 的 函数 集合 构成 的 。 首 先 ， 程 序 从 文件 中 读 人 数据 集 ， 然 后 在 该 数据 
集 上 运行 Platt SMO 算 法 ， 其 中 核 函 数 的 类 型 为 ' rbf' 。 

优化 过 程 结束 后 ， 在 后 面 的 矩阵 数学 运算 中 建立 了 数据 的 矩阵 副本 ， 并 且 找 出 那些 非 零 的 
alpha 值 ， 从 而 得 到 所 需要 的 支持 向 量 ， 同时 ， 也 就 得 到 了 这 些 支持 向 量 和 alpha 的 类 别 标签 值 。 
这 些 值 仅仅 是 需要 分 类 的 值 。 

整个 代码 中 最 重要 的 是 for 循 环 开始 的 那 两 行 ， 它 们 给 出 了 如 何 利 用 核 函 数 进行 分 类 。 首 先 
利用 结构 初始 化 方法 中 使 用 过 的 kernelTrans () 函数 ， 得 到 转换 后 的 数据 。 然 后 ， 再 用 其 与 前 
面 的 alpha 及 类 别 标签 值 求 积 。 其 中 需要 特别 注意 的 另 一 件 事 是 , 在 这 儿 行 代码 中 , 是 如 何 做 到 只 
需要 支持 向 量 数据 就 可 以 进行 分 类 的 。 除 此 之 外 ， 其 他 数据 都 可 以 直接 舍弃 。 

与 第 一 个 foz 循 环 相 比 ， 第 二 个 for 循 环 仅仅 只 有 数据 集 不 同 ， 后 者 采用 的 是 测试 数据 集 。 
读者 可 以 比较 不 同 的 设置 在 测试 集 和 训练 集 上 表现 出 的 性 能 。 

为 测试 程序 清单 6-8 的 代码 ， 可 以 在 Python 提示 符 下 输入 命令 ; 

>>> reload (svmMLiA) 


<module 'svmMDLiA' from 'svmMLiA.pyc'> 
>>> SvMMLiA.testRbf () 


fullset, iter: 11 i:497, pairs changed 0 
fullSet, iter: 11 i:498, pairs changed 0 
fullset, iter: 11 i:499, pairs changed 0 
iteration number: 12 

there are 27 Support Vectors 

the training error rate is: 0.030000 

the test error rate is: 0.040000 


你 可 以 尝试 更 换 不 同 的 kl 参数 以 观察 测试 错误 率 、 训 练 错误 率 、 支 持 向 量 个 数 随 k1 的 变化 
情况 。 图 6-7 给 出 了 当 k1 非 常 小 (=0.1 ) 时 的 结果 。 
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RBF k1=0.10, 85 个 支持 向 量 
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图 6-7 在 用 户 自 定义 参数 kl = 0.1 时 的 径 向 基 函 数 。 该 参数 此 时 减少 了 每 个 支持 向 量 
的 影响 程度 ， 因 此 需要 更 多 的 支持 向 量 


图 6-7 中 共有 100 个 数据 点 ， 其 中 的 85 个 为 支持 向 量 。 优 化 算法 发 现 ， 必 须 使 用 这 些 支持 向 量 
才能 对 数据 进行 正确 分 类 。 这 就 可 能 给 了 读者 径 向 基 函 数 到 达 率 太 小 的 直觉 。 我 们 可 以 通过 增加 
c 来 观察 错误 率 的 变化 情况 。 增 加 c 之 后 得 到 的 另 一 个 结果 如 图 6-8 所 示 。 


RBF k1=1.30, 27 个 支持 向 量 
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图 6-8 在 用 户 自 定义 参数 kl=1.3 时 的 径 向 基 函 数 。 这 里 的 支持 向 量 个 数 少 于 图 6-7 的 ， 
而 这 些 支 持 向 量 在 决策 边界 周围 聚集 
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同 图 6-7 相 比 ， 图 6-8 中 只 有 27 个 支持 向 量 ， 其 数目 少 了 很 多 。 这 时 观察 一 下 函数 estRbf () 
的 输出 结果 就 会 发 现 ， 此 时 的 测试 错误 率 也 在 下 降 。 该 数据 集 在 这 个 设置 的 某 处 存在 着 最 优 值 。 
如 果 降 低 c， 那 么 训练 错误 率 就 会 降低 ， 但 是 测试 错误 率 却 会 上 升 。 

支持 向 量 的 数目 存在 一 个 最 优 值 。SVM 的 优点 在 于 它 能 对 数据 进行 高 效 分 类 。 如 果 支 持 向 量 
太 少 ， 就 可 能 会 得 到 一 个 很 差 的 决策 边界 ( 下 个 例子 会 说 明 这 一 点 ); 如 果 支 持 向 量 太 多 ， 也 就 
相当 于 每 次 都 利用 整个 数据 集 进 行 分 类 ， 这 种 分 类 方法 称 为 k 近 邻 。 

我 们 可 以 对 SMO 算 法 中 的 其 他 设置 进行 随意 地 修改 或 者 建立 新 的 核 函 数 。 接 下 来 , 我 们 将 在 
一 个 更 大 的 数据 上 应 用 支持 向 量 机 ， 并 与 以 前 介绍 的 一 个 分 类 器 进行 对 比 。 


6.6 示例 : 手写 识别 问题 回顾 


考虑 这 样 一 个 假想 的 场景 。 你 的 老板 过 来 对 你 说 :“ 你 写 的 那个 手写 体 识别 程序 非常 好 ， 但 
是 它 占用 的 内 存 太 大 了 。 顾客 不 能 通过 无 线 的 方式 下 载 我 们 的 应 用 ( 在 写本 书 时 , 无 线 下 载 的 限 
制 容量 为 1OMB， 可 以 肯定 ， 这 将 来 会 成 为 笑料 的 。) 我 们 必须 在 保持 其 性 能 不 变 的 同时 , 使 用 更 
少 的 内 存 。 我 呢 , 告诉 了 CEO, 你 会 在 一 周 内 准备 好 , 但 你 到 底 还 得 多 长 时 间 才 能 搞定 这 件 事 ? ” 
我 不 确定 你 到 底 会 如 何 回答 , 但 是 如 果 想 要 满足 他 们 的 需求 , 你 可 以 考虑 使 用 支持 向 量 机。 尽管 
第 2 章 所 使 用 的 KNN 方 法 效果 不 错 ， 但 是 需要 保留 所 有 的 训练 样本 。 而 对 于 支持 向 量 机 而 言 ， 其 
需要 保留 的 样本 少 了 很 多 ( 即 只 保留 支持 向 量 )， 但 是 能 获得 可 比 的 效果 。 


示例， 基于 SVM 的 数字 识别 
(1) 收集 数据 : 提供 的 文本 文件 。 
(2) 准备 数据 : 基于 二 值 图 像 构 造 向 量 。 
(3) 分 析 数 据 : 对 图 像 向 量 进行 目测 。 
(4) 训练 算法 : 采用 两 种 不 同 的 核 函 数 ,并 对 径 向 基 核 函数 采用 不 同 的 设置 来 运行 SMO 算 法 。 
(5) 测试 算法 : 编写 一 个 函数 来 测试 不 同 的 核 函 数 并 计算 错误 率 。 
(@ 使 用 算法 : 一 个 图 像 识别 的 完整 应 用 还 需要 一 些 图 像 处 理 的 知识 , 这 里 并 不 打算 深入 介绍 。 


使 用 第 2 章 中 的 一 些 代码 和 SMO 算 法 ， 可 以 构建 一 个 系统 去 测试 手写 数字 上 的 分 类 器 。 打 开 
svmMLiA.py 并 将 第 2 章 knn.py 中 的 img2vector () 函数 复制 过 来 。 然 后 ， 加 入 程序 清单 6-9 中 的 
代码 。 


程序 清单 6-9 ”基于 SVM 的 手写 数字 识别 


def loadGImages (dirName): 
from os import listdir 
hwLabels = [] 
trainingFileList = listdir (dirName) 
m = len(trainingFileList) 
trainingMat = zeros( (m,1024)) 
for i in range (m) : 
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fileNameStr = trainingFileList [i] 
filestr = fileNameStr.split('.') [0] 
classNumSstr = int (filestr.split(' ') [0]) 
if classNumStr == 9: hwLabels.append{-1) 
else: hwLabels.append(1) 
trainingMat [i,:] = img2vector('%s/%s' % (dirName, fileNameSstr)) 
return trainingMat, hwLabels 
def testDigits (kTup=('rbf', 10)): 
dataArr,labelArr = loadImages ('trainingDigits') 
b,alphas = .smoP (dataArr, labelArr, 200, 0.0001, 10000, kTup) 
datMat=mat (dataArr); labelMat = mat (labelArr) .transpose() 
svIind=nonzero(alphas .A>0) [0] 
svVvs=datMat [svInd] 
1abelSV = labelMat [svind]; 
print "there are %d Support Vectors'" % shape(sVs) [0] 
mn = shape (datMat) 
errorCount = 0 
for i in range (m): 
kernelEval = kernelTrans(sVs,datMat [i, :] ,kTup) 
predict=kernelEval.T * multiply (labelSV,alphas[svIind]) + b 
if sign(predict) !=sign{(labelArr [i]): errorCount += 1 
print "the training error rate ig: %f" 条 {float (errorCount) /m) 
dataArr, labelArr = loadImages ('testDigits') 
errorCount = 0 
datMat=mat (dataArr); labelMat = mat (labelArr) .transpose () 
mn = Shape (datMat) 
for i in range (m): 
kernelEval = kernelTrans (svVs,datMat [i, :] ,kTup) 
predict=kernelEval.T * multiply (labelSsV,alphas[svIind]) + b 
if sign(predict) !=sign(labelArr{[i]):.errorCount += 1 
print "the test error rate is: %f" % (float (errorCount)/m) 


函数 1oadTmages () 是 作为 前 面 kNN.py 中 的 hanGwritingclassTest () 的 一 部 分 出 现 的 。 
它 已 经 被 重 构 为 自身 的 一 个 函数 。 其 中 仅 有 的 一 个 大 区 别 在 于 ， 在 kNN.py 中 代码 直接 应 用 类 别 
标签 ， 而 同 支 持 向 量 机 一 起 使 用 时 ， 类 别 标 签 为 -1 或 者 +1。 因 此 ， 一 旦 碰 到 数字 9， 则 输出 类 别 
标签 -1， 否 则 输出 +1。 本 质 上 ， 支 持 向 量 机 是 一 个 二 类 分 类 器 ， 其 分 类 结果 不 是 +1 就 是 -1。 基 
于 SVM 构 建 多 类 分 类 器 已 有 很 多 研究 和 对 比 了 ， 如 果 读 者 感 兴趣 ， 建 议 阅读 C. W. Huset 等 人 发 表 
的 一 篇 论文 “A Comparison of Methods for Multiclass Support Vector Machines”2。 由 于 这 里 我 们 
只 做 二 类 分 类 ， 因 此 除了 1 和 9 之 外 的 数字 都 被 去 掉 了 。 

下 一 个 函数 testpigits() 并 不 是 全 新 的 函数 , 它 和 testRbf () 的 代码 几乎 一 样 ,唯一 的 大 
区 别 就 是 它 调 用 了 1oadImages () 函数 来 获得 类 别 标签 和 数据 。 另 一 个 细小 的 不 同 是 现在 这 里 的 
函数 元 组 krup 是 输入 参数 ， 而 在 testRbf () 中 默认 的 就 是 使 用 rbf 核 函数 。 如 果 对 于 函数 
testDigits () 不 增加 任何 输入 参数 的 话 ， 那 么 kTup 的 默认 值 就 是 (rbf ,10)。 

输入 程序 清单 6-9 中 的 代码 之 后 ， 将 之 保存 为 svmMLiA.py 并 输入 如 下 命令 : 





中 C. W. Hus, and C. J. Lin, “A Comparison of Methods for Multiclass Support Vector Machines,” JEEE Transactions on 
Neural Networks 13, no. 2 (March 2002), 415-25。 
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>>> SvmMLiA.testDigits(('rbf', 20)) 


L== 
fullset, iter: 3 i:401, pairs changed 0 
iteration number: 4 

there are 43 Support Vectors 

the training error rate is: 0.017413 
the test error rate igs: 0.032258 


我 尝试 了 不 同 的 c 值 ， 并 尝试 了 线性 核 函 数 ， 总 结 得 到 的 结果 如 表 6-1 所 示 。 
表 6-1 不 同 0 值 的 手写 数字 识别 性 能 





内 核 ， 设 置 训练 错误 率 〈%) 测试 错误 率 〈%) 支持 向 量 数 
RBF, 0.1 0 52 402 
RBF, 5 0 3.2 402 
RBF, 10 0 0.5 99 
RBF, 50 0.2 2.2 41 
RBF, 100 4.5 4.3 26 
Linear 2.7 22 38 


表 6-1 给 出 的 结果 表明 ， 当 径 向 基 核 函数 中 的 参数 c 取 10 左 右 时 ， 就 可 以 得 到 最 小 的 测试 错误 
率 。 该 参数 值 比 前 面 例子 中 的 取 值 大 得 多 ， 而 前 面 的 测试 错误 率 在 1.3 左 右 。 为 什么 差距 如 此 之 
大 ? 原因 就 在 于 数据 的 不 同 。 在 手写 识别 的 数据 中 ， 有 1024 个 特征 ， 而 这 些 特 征 的 值 有 可 能 高 达 
1.0。 而 在 6.5 节 的 例子 中 ， 所 有 数据 从 -1 到 1 变化 ， 但 是 只 有 2 个 特征 。 如 何 才能 知道 该 怎么 设置 
呢 ? 说 老实 话 ， 在 写 这 个 例子 时 我 也 不 知道 。 我 只 是 对 不 同 的 设置 进行 了 多 次 尝试 。C 的 设置 也 
会 影响 到 分 类 的 结果 。 当 然 ， 存 在 另外 的 SVM 形式 ， 它 们 把 C 同 时 考虑 到 了 优化 过 程 中 ， 例 如 
V-SVM。 有 关 v-SVM 的 一 个 较 好 的 讨论 可 以 参考 本 书 第 3 章 介绍 过 的 Sergios Theodoridis 和 
Konstantinos Koutroumbas 撰 写 的 Pottern Recognition?。 

你 可 能 注意 到 了 一 个 有 趣 的 现象 , 即 最 小 的 训练 错误 率 并 不 对 应 于 最 小 的 支持 向 量 数 目 。 另 
一 个 值得 注意 的 就 是 ,线性 核 函 数 的 效果 并 不 是 特别 的 精 糕 。 可 以 以 牺牲 线性 核 函 数 的 错误 率 来 
换取 分 类 速度 的 提高 。 尽 管 这 一 点 在 实际 中 是 可 以 接受 的 ， 但 是 还 得 取决 于 具体 的 应 用 。 


6.7 本章 小 结 


支持 向 量 机 是 一 种 分 类 器 。 之 所 以 称 为 “机 ”是 因为 它 会 产生 一 个 二 值 决策 结果 ， 即 它 是 一 种 
决策 “机 ”。 支 持 向 量 机 的 泛 化 错误 率 较 低 ， 也 就 是 说 它 具 有 良好 的 学 习 能 力 ， 且 学 到 的 结果 具有 
很 好 的 推广 性 。 这 些 优点 使 得 支持 向 量 机 十 分 流行 ,有 些 人 认为 它 是 监督 学 习 中 最 好 的 定式 算法 。 

支持 向 量 机 试图 通过 求解 一 个 二 次 优化 问题 来 最 大 化 分 类 间隔 。 在 过 去 , 训练 支持 向 量 机 常 
采用 非常 复杂 并 且 低 效 的 二 次 规划 求解 方法 。John Platt 引 入 了 SMO 算 法 , 此 算法 可 以 通过 每 次 只 
优化 2 个 alpha 值 来 加 快 SVM 的 训练 速度 。 本 章 首 先 讨论 了 一 个 简化 版 本 所 实现 的 SMO 优 化 过 程 ， 





©@ Sergios Theodoridis and Konstantinos Koutroumbas, Pattern Recognition, 4th ed. (Academic Press, 2009), 133， 
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接着 给 出 了 完整 的 Platt SMO 算 法 。 相 对 于 简化 版 而 言 ， 完整 版 算法 不 仅 大 大 地 提高 了 优化 的 速 
度 , 还 使 其 存在 一 些 进 一 步 提高 运行 速度 的 空间 。 有 关 这 方面 的 工作 , 一 个 经 常 被 引用 的 参考 文 
献 就 是 “Improvements to Platt's SMO Algorithm for SVM Classifier Design” ?。 

核 方法 或 者 说 核 技巧 会 将 数据 ( 有 时 是 非 线性 数据 ) 从 一 个 低 维 空间 映射 到 一 个 高 维 空间 ， 
可 以 将 一 个 在 低 维 空间 中 的 非 线性 问题 转换 成 高 维 空间 下 的 线性 问题 来 求解 。 核 方法 不 止 在 SVM 
中 适用 , 还 可 以 用 于 其 他 算法 中 。 而 其 中 的 径 向 基 函 数 是 一 个 常用 的 度量 两 个 向 量 距 离 的 核 函 数 。 

支持 向 量 机 是 一 个 二 类 分 类 器 。 当 用 其 解决 多 类 问题 时 ， 则 需要 额外 的 方法 对 其 进行 扩展 。 
SVM 的 效果 也 对 优化 参数 和 所 用 核 函数 中 的 参数 敏感 。 

下 一 音 将 通过 介绍 一 个 称 为 boosting 的 方法 来 结束 我 们 有 关 分 类 的 介绍 。 读者 不 久 就 会 看 到 ， 
在 boosting 和 SVM 之 间 存 在 着 许多 相似 之 处 。 





利 用 AdaBoost 元 算法 提高 
分 类 性 能 ‘ 








本 章 内 容 

口 组 合 相似 的 分 类 器 来 提高 分 类 性 能 
口 应 用 AdaBoost 算 法 

口 处 理 非 均衡 分 类 问题 





当做 重要 决定 时 ,大 家 可 能 都 会 考虑 吸取 多 个 专家 而 不 只 是 一 个 人 的 意见 。 机 器 学 习 处 理 问 
题 时 又 何尝 不 是 如 此 ? 这 就 是 元 算法 ( meta-algorithm ) 背后 的 思路 。 元 算法 是 对 其 他 算法 进行 组 
合 的 一 种 方式 。 接 下 来 我 们 将 集中 关注 一 个 称 作 AdaBoost 的 最 流行 的 元 算法 。 由 于 某 些 人 认为 
AdaBoost 是 最 好 的 监督 学 习 的 方法 ， 所 以 该 方法 是 机 器 学 习 工具 箱 中 最 强 有 力 的 工具 之 一 。 

本 章 首先 讨论 不 同 分 类 器 的 集成 方法 ， 然 后 主要 关注 boosting 方 法 及 其 代表 分 类 器 Adaboost。 
再 接 下 来 ,我 们 就 会 建立 一 个 单 层 决策 树 ( decision stump ) 分 类 器 。 实 际 上 ， 它 是 一 个 单 节点 的 
决策 树 。AdaBoost 算 法 将 应 用 在 上 述 单 层 决策 树 分 类 器 之 上 。 我 们 将 在 一 个 难 数据 集 上 应 用 
AdaBoost 分 类 器 ， 以 了 解 该 算法 是 如 何 迅速 超越 其 他 分 类 器 的 。 

最 后 ， 在 结束 分 类 话题 之 前 ,我 们 将 讨论 所 有 分 类 器 都 会 遇 到 的 一 个 通用 问题 ; 非 均 衡 分 类 
问题 。 当 我 们 试图 对 样 例 数 目 不 均衡 的 数据 进行 分 类 时 ， 就 会 遇 到 这 个 问题 。 信 用 卡 使 用 中 的 坎 
诈 检 测 就 是 非 均衡 问题 中 的 一 个 极 好 的 例子 , 此 时 我 们 可 能 会 对 每 一 个 正 例 样本 部 有 1000 个 反例 
样本 。 在 这 种 情况 下 ， 分 类 器 将 如 何 工 作 ? 读者 将 会 了 解 到 ， 可 能 需要 利川 修改 后 的 指标 来 评价 
分 类 器 的 性 能 。 而 就 这 个 问题 而 言 ， 并 非 AdaBoost 所 独 用 ， 只 是 因为 这 是 分 类 的 最 后 一 章 ， 因 此 
到 了 讨论 这 个 问题 的 最 佳 时 机 。 


7.1 基于 数据 集 多 重 抽样 的 分 类 器 


前 面 已 经 介绍 了 五 种 不 同 的 分 类 算法 , 它们 各 有 优 缺 点 。 我 们 自然 可 以 将 不 同 的 分 类 器 组 合 
: 起 来 ， 而 这 种 组 合 结果 则 被 称 为 集成 方法 ( ensemble method ) 或 者 元 算法 ( meta-algorithm )。 使 
@ S. Ss. Keerthi, S. K. Shevade, C. Bhattacharyya, and K. R. K. Murthy, “Improvements to Platts SMO Algorithm for SVM 用 集成 方法 时 会 有 多 种 形式 ， 可 以 是 不 同 算法 的 集成 也 可 以 是 同一 算法 在 不 同 设置 下 的 集成 ， 


Classifier Design,” Neural Computation 13, no. 3,( 2001), 637-49. 
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还 可 以 是 数据 集 不 同 部 分 分 配给 不 同 分 类 器 之 后 的 集成 。 接 下 来 ,我 们 将 介绍 基于 同一 种 分 类 器 
多 个 不 同 实例 的 两 种 计算 方法 。 在 这 些 方法 当中 ， 数据 集 也 会 不 断 变化 ,而 后 应 用 于 不 同 的 实例 
分 类 器 上 。 最 后 ， 我 们 会 讨论 如 何 利用 机 器 学 习 问题 的 通用 框架 来 应 用 AdaBoost 算 法 。 


ee 
从 i 
¥ 


i i : . AdaBoost | 
优点 : 泛 化 错误 率 低 ， 易 编码 ， 可 以 应 用 在 大 部 分 分 类 器 上 ， 无 参数 调整 。 
缺点 : 对 离 群 点 敏感 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


7.1.1 bagging: 基于 数据 随机 重 抽样 的 分 类 器 构建 方法 


自 举 汇聚 法 bootstrap aggregating )， 也 称 为 bagging 方 法 ， 是 在 从 原始 数据 集 选 择 S 次 后 

得 到 3 个 新 数据 集 的 一 种 技术 。 新 数据 集 和 原 数据 集 的 大 小 相等 。 每 个 数据 集 都 是 通过 在 原始 
数据 集中 随机 选择 一 个 样本 来 进行 替换 而 得 到 的 "。 这 里 的 替换 就 意味 着 可 以 多 次 地 选择 同一 
样本 。 这 一 性 质 就 允许 新 数据 集中 可 以 有 重复 的 值 ， 而 原始 数据 集 的 某 些 值 在 新 集合 中 则 不 
再 出 现 。 

在 8 个 数据 集 建 好 之 后 , 将 某 个 学 习 算法 分 别 作 用 于 每 个 数据 集 就 得 到 了 5 个 分 类 器 。 当 我 们 
” 要 对 新 数据 进行 分 类 时 ， 就 可 以 应 用 这 4 个 分 类 器 进行 分 类 。 与 此 同时 ， 选择 分 类 器 投票 结果 中 
最 多 的 类 别 作为 最 后 的 分 类 结果 。 

当然 ， 还 有 一 些 更 先进 的 bagging 方 法 ， 比 如 随机 森林 (random forest )。 有 关 这 些 方法 的 一 
个 很 好 的 讨论 材料 参见 网 页 http://www.stat.berkeley.edu/~breiman/RandomForests/ce_home.htm。 接 
下 来 我 们 将 注意 力 转 向 一 个 与 bagging 类 似 的 集成 分 类 器 方法 boosting。 


7.1.2 boosting 


boosting 是 一 种 与 bagging 很 类 似 的 技术 。 不 论 是 在 boosting 还 是 bagging 当 中 ， 所 使 用 的 多 个 
分 类 器 的 类 型 都 是 一 致 的 。 但 是 在 前 者 当中 , 不同 的 分 类 顺 是 通过 串 行 训练 而 获得 的 ， 每 个 新 分 
类 器 都 根据 已 训练 出 的 分 类 器 的 性 能 来 进行 训练 。 boosting 是 通过 集中 关注 被 已 有 分 类 器 错 分 的 
那些 数据 来 获得 新 的 分 类 器 。 

由 于 boosting 分 类 的 结果 是 基于 所 有 分 类 器 的 加 权 求 和 结果 的 , 因 此 boosting 与 bagging 不 太一 
样 。bagging 中 的 分 类 器 权重 是 相等 的 ， 而 boosting 中 的 分 类 器 权重 并 不 相等 ， 每 个 权重 代表 的 是 
其 对 应 分 类 器 在 上 一 轮 迭 代 中 的 成 功 度 。 

boosting 方 法 拥有 多 个 版 本 ， 本 章 将 只 关注 其 中 一 个 最 流行 的 版 本 AdaBoost。 





Q 这 里 的 意思 是 从 原始 集合 中 随机 选择 一 个 样本 ， 然后 随机 选择 一 个 样本 来 代替 这 个 样本 。 在 其 他 书 中 ，bagging 
中 的 数据 集 通常 被 认为 是 放 回 取样 得 到 的 ， 比 如 要 得 到 一 -个 大 小 为 n 的 新 数据 集 ， 该 数据 集中 的 每 个 样本 都 是 在 
原始 数据 集中 随机 抽样 即 抽样 之 后 又 放 回 ) 得 到 的 。-_ 译 者 注 





”| 
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AdaBoost 的 一 般 流程 a | 

(1) 收集 数据 ， 可 以 使 用 任意 方法 。 

(2) 准备 数据 : 依赖 于 所 使 用 的 弱 分 类 器 类 型 ， 本 章 使 用 的 是 单 层 决策 树 ， 这 种 分 类 器 可 
以 处 理 任何 数据 类 型 。 当 然 也 可 以 使 用 任意 分 类 器 作为 弱 分 类 器 ， 第 2 章 到 第 6 章 中 的 
任 一 分 类 器 都 可 以 充当 弱 分 类 器 。 作 为 弱 分 类 器 ， 简 单 分 类 器 的 效果 更 好 。 

(3) 分 析 数 据 ， 可 以 使 用 任意 方法 。 

(4) 训练 算法 : AdaBoost 的 大 部 分 时 间 都 用 在 训练 上 ， 分 类 器 将 多 次 在 同一 数据 集 上 训练 
弱 分 类 器 。 

(5) 测试 算法 : 计算 分 类 的 错误 率 。 

(6) 使 用 算法 : 同 SVM 一 样 ，AdaBoost 预 测 两 个 类 别 中 的 一 个 。 如 果 想 把 它 应 用 到 多 个 类 
别 的 场合 ， 那 么 就 要 像 多 类 SVM 中 的 做 法 一 样 对 AdaBoost 进 行 修改 。 


下 面 我 们 将 要 讨论 AdaBoost 背 后 的 一 些 理论 ， 并 揭示 其 效果 不 错 的 原因 。 
7.2 训练 算法 ;基于 错误 提升 分 类 器 的 性 能 


7 
能 和 否 使 用 弱 分 类 器 和 多 个 实例 来 构建 一 个 强 分 类 器 ? 这 是 一 个 非常 有 趣 的 理论 问题 。 这 里 的 一 


“ 弱 ” 意 昧 着 分 类 器 的 性 能 比 随机 猜测 要 略 好 ， 但 是 也 不 会 好 太 多 。 这 就 是 说 ， 在 二 分 类 情况 下 
弱 分 类 器 的 错误 率 会 高 于 50%， 而 “ 强 ” 分 类 器 的 错误 率 将 会 低 很 多 。AdaBoost 算 法 即 脱胎 于 上 
述 理论 问题 。 _ | 

AdaBoost 是 adaptive boosting ( 自 适 应 boosting ) 的 缩写 ， 其 运行 过 程 如 下 : 训练 数据 中 的 每 
个 样本 ， 并 赋予 其 一 个 权重 ， 这 些 权重 构成 了 向 量 D。 一 开始 ， 这 些 权 重 都 初始 化 成 相等 值 。 首 
先 在 训练 数据 上 训练 出 一 个 弱 分 类 器 并 计算 该 分 类 器 的 错误 率 , 然后 在 同一 数据 集 上 再 次 训练 弱 
分 类 器 。 在 分 类 器 的 第 二 次 训练 当中 ,将 会 重新 调整 每 个 样本 的 权重 ， 其 中 第 一 次 分 对 的 样本 的 
权重 将 会 降低 ,而 第 一 次 分 错 的 样本 的 权重 将 会 提高 。 为 了 从 所 有 弱 分 类 器 中 得 到 最 终 的 分 类 结 
果 ，AdaBoost 为 每 个 分 类 器 都 分 配 了 一 个 权重 值 atpha， 这 些 alpha 值 是 基于 每 个 弱 分 类 器 的 错误 
率 进行 计算 的 。 其 中 ， 错 误 率 e 的 定义 为 ， 

有 未 正确 分 类 的 样本 数目 
站 所 有 样本 数 日 


而 alpha 的 计算 公式 如 下 : 


AdaBoost 算 法 的 流程 如 图 7-1 所 示 。 
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图 7-1 AdaBoost 算 法 的 示意 图 。 左 边 是 数据 集 ， 其 中 直方 图 的 不 同 宽度 表示 每 个 样 例 
上 的 不 同 权 重 。 在 经 过 一 个 分 类 器 之 后 ， 加 权 的 预测 结果 会 通过 三 角形 中 的 
alpha 值 进行 加 权 。 每 个 三 角形 中 输出 的 加 权 结 果 在 圆 形 中 求 和 ， 从 而 得 到 最 终 
的 输出 结果 


计算 出 alpha 值 之 后 ， 可 以 对 权重 向 量 D 进 行 更 新 ， 以 使 得 那些 正确 分 类 的 样本 的 权重 降低 而 
错 分 样本 的 权重 升 高 。D 的 计算 方法 如 下 。 
如 果 某 个 样本 被 正确 分 类 ， 那 么 该 样本 的 权重 更 改 为 : 
DD = De™” 
Sum(D) 
而 如 果 某 个 样本 被 错 分 ， 那 么 该 样本 的 权重 更 改 为 
DD - De 
Sum(D) 
在 计算 出 盖 之 后 ，AdaBoost 又 开始 进入 下 一 轮 迭 代 。 AdaBoost 算 法 会 不 断 地 重复 训练 和 调整 
权重 的 过 程 ， 直 到 训练 错误 率 为 0 或 者 弱 分 类 器 的 数目 达到 用 户 的 指定 值 为 止 。 
接 下 来 ,我 们 将 建立 完整 的 AdaBoost 算 法 。 在 这 之 前 , 我 们 首先 必须 通过 一 些 代码 来 建立 
分 类 器 及 保存 数据 集 的 权重 。 0 


7.3 ”基于 单 层 决 策 树 构建 弱 分 类 器 


单 层 决策 树 (decision stump， 也 称 决策 树桩 ) 是 一 种 简单 的 决策 树 。 前 面 我 们 已 经 介绍 了 决 
策 树 的 工作 原理 ， 接 下 来 将 构建 一 个 单 层 决策 树 ， 而 它 仅 基于 单个 特征 来 做 决策 。 由 于 这 棵 树 只 
有 一 次 分 裂 过程 ， 因 此 它 实际 上 就 是 一 个 树桩 。 


| 
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在 构造 AdaBoost 的 代码 时 ， 我 们 将 首先 通过 一 个 简单 数据 集 来 确保 在 算法 实现 上 一 切 就 绪 。 
然后 ， 建立 一 个 叫 adaboost.py 的 新 文件 并 加 入 如 下 代码 : 


def loadSsimpData(): 
datMat = matrix([[ i. , 2.1], 


classLabels = [1.0, 1.0, -1.0, -1.0, 1.0] 
return datMat,classLabels 


图 7-2 给 出 了 上 述 数 据 集 的 示意 图 。 如 果 想 要 试 着 从 某 个 坐标 轴 上 选择 一 个 值 ( 即 选择 一 条 
与 坐标 轴 平 行 的 直线 ) 来 将 所 有 的 圆 形 点 和 方形 点 分 开 , 这 显然 是 不 可 能 的 。 这 就 是 单 层 决策 树 
难以 处 理 的 一 个 著名 问题 。 通 过 使 用 多 棵 单 层 决策 树 , 我 们 就 可 以 构建 出 一 个 能 够 对 该 数据 集 完 
全 正确 分 类 的 分 类 器 。 
单 层 决策 树 测试 数据 


* 22 


2.0 


0.8.8 1.0 bs 1.4 1.6 1.8 2.0 > 
图 7-2 ”用 于 检测 AdaBoost 构 建 函 数 的 简单 数据 。 这 不 可 能 仅仅 通过 在 某 个 坐标 轴 上 选 
择 某 个 阐 值 来 将 圆 形 点 和 方形 点 分 开 。AdaBoost 需 要 将 多 个 单 层 决 策 树 组 合 起 
来 才能 对 该 数据 集 进行 正确 分 类 


通过 键入 如 下 命令 可 以 实现 数据 集 和 类 标签 的 导入; 


>>> import adaboost 
>>> datMat,classLabels=adaboost .lioadSimpData () 


有 了 数据 ， 接 下 来 就 可 以 通过 构建 多 个 函数 来 建立 单 层 决策 树 。 
第 一 个 函数 将 用 于 测试 是 否 有 某 个 值 小 于 或 者 大 于 我 们 正在 测试 的 阔 值 。 第 二 个 函数 则 更 加 
复杂 一 些 ， 它 会 在 一 个 加 权 数 据 集中 循环 ， 并 找到 具有 最 低 错 误 率 的 单 层 决策 树 。 
这 个 程序 的 伪 代 码 看 起 来 大 致 如 下 : 
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将 最 小 错误 率 minError 设 为 +oo 
对 数据 集中 的 每 一 个 特征 (第 一 层 循环 ): 
对 每 个 步 长 (第 二 层 循环 ): 
对 每 个 不 等 号 (第 三 层 循环 ): 

建立 一 棵 单 层 决策 树 并 利用 加 权 数 据 集 对 它 进行 测试 

如 果 错 误 率 低 于 minError， 则 将 当前 单 层 决策 树 设 为 最 佳 单 层 决策 树 
返回 最 佳 单 层 决策 树 
接 下 来 ， 我 们 开始 构建 这 个 函数 。 将 程序 清单 7-1 中 的 代码 输入 到 boost py 中 并 保存 文件 。 


程序 清单 7-1 单 层 决策 树 生 成 函数 


def stumpClassify (dataMatrix,dimen, threshVal,threshIneq): 
retArray = ones ( (shape (dataMatrix) [0] ,1)) 


if threshIneq == 'lt': 

retArray [dataMatrix[:,dGimen] <= threshVal] = -1.0 
else: 

retArray [dataMatrix[:,dimen] > threshVval] = -1.0 


return retArray 


def buildstump (dataArr, classLabels,D): 
dataMatrix = mat (dataArr); labelMat = mat (classLabels) .T 
m,n = shape (dataMatrix) 
numSteps = 10.0; bestStump = {}; bestClasEst = mat (zeros((m,1))) 
minError = inf 
for i in range (n) : 
rangeMin = dataMatrix[:,i] .min(); rangeMax = dataMatrix[:,i] .max(); 
StepSize = (rangeMax-rangeMin) /numSteps 
for j in range(-1,int (numSteps)+1): 
tor inequal in {'lt', !gt']: 
threshVal = (rangeMin + float(j) * stepSize) 
predictedVals = \ 
stumpClassify (dataMatrix,i,threshVal, inequal) 
errArr = mat (ones( {m,1))) 
errArr [predictedVals == labeiMat] = 0 
weightedError = D.T*errArr 
#print "split: dim %d, thresh %.2f, thresh ineqal: \ 
%s, the weighted error is %.3f" %\ 
{i, threshVal, inequal, weightedError) 
if weightedError < minError: 
minError = weightedError 
bestClasEst = predictedVals .copy () 


bestStump ['dim'] = i 计算 加 权 错 误 率 
beststump['thresh'] = threshVval 
beststump['inegq'] = inequal 


return bestStump,minError,bestClasEst . 
上 述 程序 包含 两 个 函数 。 第 一 个 函数 stumpclassify() 是 通过 阐 值 比较 对 数据 进行 分 类 的 。 
所 有 在 阔 值 一 边 的 数据 会 分 到 类 别 -1, 而 在 另外 一 边 的 数据 分 到 类 别 +1。 该 函数 可 以 通过 数组 过 
滤 来 实现 , 首先 将 返回 数组 的 全 部 元 素 设置 为 1, 然后 将 所 有 不 满足 不 等 式 要 求 的 元 素 设置 为 - lo 
可 以 基于 数据 集中 的 任 一 人 同时 也 可 以 将 不 等 号 在 大 于 、 小 于 之 间 切 换 。 
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第 二 个 函数 buildstump () 将 会 遍历 stumpclassify() 函数 所 有 的 可 能 输入 值 ， 并 找到 数 
据 集 上 最 佳 的 单 层 决策 树 。 这 里 的 “最 佳 ”是 基于 数据 的 权重 向 量 p 来 定义 的 ， 读 者 很 快 就 会 看 
到 其 具体 定义 了 。 在 确保 输入 数据 符合 矩阵 格式 之 后 ， 整 个 函数 就 开始 执行 了 。 然 后 ， 函 数 将 构 
建 一 个 称 为 beststump 的 空 字典 ， 这 个 字典 用 于 存储 给 定 权重 向 量 D 时 所 得 到 的 最 佳 单 层 决 策 树 
的 相关 信息 。 变 量 numsteps 用 于 在 特征 的 所 有 可 能 值 上 进行 遍历 。 而 变量 minError 则 在 一 开始 
就 初始 化 成 正 无 穷 大 ， 之 后 用 于 寻找 可 能 的 最 小 错误 率 。 

三 层 垦 大 ,的 for 循 环 是 程序 最 主要 的 部 分 。 第 一 层 for 循 环 在 数据 集 的 所 有 特征 上 遍历 。 考 
虑 到 数值 型 的 特征 , 我 们 就 可 以 通过 计算 最 小 值 和 最 大 值 来 了 解 应 该 需要 多 大 的 步 长 。 然 后 ,第 
二 层 for 循 环 再 在 这 些 值 上 遍历 。 甚 至 将 阅 值 设置 为 整个 取 值 范围 之 外 也 是 可 以 的 。 因 此 ， 在 取 
值 范围 之 外 还 应 该 有 两 个 额外 的 步骤 。 最 后 一 个 for 循 环 则 是 在 大 于 和 小 于 之 间 切 换 不 等 式 。 

在 峰 套 的 三 层 for 循 环 之 内 ,我 们 在 数据 集 及 三 个 循环 变量 上 调用 stumpclassify() 函数 。 
基于 这 些 循环 变量 ， 该 函数 将 会 返回 分 类 预测 结果 。 接 下 来 构建 一 个 列 向 量 errarr， 如 果 
predGictedvals 中 的 值 不 等 于 labelMat 中 的 真正 类 别 标签 值 ， 那么 errarr 的 相应 位 置 为 1。 将 
错误 向 量 errArr 和 权重 向 量 D 的 相应 元 素 相 乘 并 求 和 ， 就 得 到 了 数值 weighteaEgrror@@。 这 就 
是 AdaBoost 和 分 类 器 交互 的 地 方 。 这 里 ， 我 们 是 基于 权重 向 量 D 而 不 是 其 他 错误 计算 指标 来 评价 
分 类 器 的 。 如 果 需 要 使 用 其 他 分 类 器 的 话 ， 就 需要 考虑 D 上 最 佳 分 类 器 所 定义 的 计算 过 程 。 

程序 接 下 来 输出 所 有 的 值 。 虽 然 这 一 行 后 面 可 以 注释 掉 , 但 是 它 对 理解 函数 的 运行 还 是 很 有 
帮助 的 。 最 后 , 将 当前 的 错误 率 与 已 有 的 最 小 错误 率 进 行 对 比 ， 如 果 当 前 的 值 较 小 ， 那么 就 在 词 
典 peststump 中 保存 该 单 层 决策 树 。 字 典 、 错 误 率 和 类 别 估计 值 都 会 返回 给 AdaBoost 算 法 。 

为 了 解 实际 运行 过 程 ， 在 Python 提示 符 下 输入 如 下 命令 ， 


>>> D = mat(ones((5,1))/5) 
>>> adaboost .buildstump (datMat, classLabels,D) 


split: dim 0, thresh 0.90, thresh ineqal: lt, the weighted error is 0.400 
split: dim 0, thresh 0.90, thresh ineqal: gt, the weighted error is 0.600 
split: dim 0, thresh 1.00, thresh ineqal: lt, the weighted error is 0.400 
split: dim 0, thresh 1.00, thresh ineqal: gt, the weighted error is 0.600 


split: dim 1, thresh 2.10, thresh ineqal: lt, the weighted error is 0.600 
split: Gim 1, thresh 2.10, thresh ineqal: gt, the weighted error is 0.400 
({'dim': 0, 'ineq': ‘lt', 'thresh': 1.3}, matrix([[ 0.2]]), array ([{-1.], 
Ll]; 

-1.],， 

= 

1.]1)) 


buildstump 在 所 有 可 能 的 值 上 遍历 的 同时 ,我 们 也 可 以 看 到 输出 的 结果 ， 并 且 最 后 会 看 到 
返回 的 字典 。 读 者 可 以 思考 一 下 , 该 词典 是 否 对 应 了 最 小 可 能 的 加 权 错 误 率 ? 是 否 存在 其 他 的 设 
置 也 能 得 到 相同 的 错误 率 ? 

上 述 单 层 决策 树 的 生成 函数 是 决策 树 的 一 个 简化 版 本 。 它 就 是 所 谓 的 弱 学 习 器 ， 即 弱 分 类 算 


法 。 到 现在 为 止 ， 我 们 已 经 构建 了 单 层 决策 树 ， 并 生成 了 程序 ， 做 好 了 过 滤 到 完整 AdaBoost 算 法 


的 准备 。 在 下 一 节 当 中 ， 我 们 将 使 用 多 个 弱 分 类 器 来 构建 AdaBoost 代 码 。 
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7.4 完整 AdaBoost 算法 的 实现 


在 上 一 节 , 我 们 构建 了 一 个 基于 加 权 输 入 值 进行 决策 的 分 类 器 。 现 在 , 我 们 拥有 了 实现 一 个 
完整 AdaBoost 算 法 所 需要 的 所 有 信息 。 我 们 将 利用 7.3 节 构建 的 单 层 决策 树 来 实现 7.2 节 中 给 出 提 
纲 的 算法 。 

整个 实现 的 伪 代 码 如 下 : 

对 每 次 迭代 ; 

利用 buildStump () 函数 找到 最 佳 的 单 层 决策 树 
将 最 佳 单 层 决策 树 加 入 到 单 层 决策 树 数组 

计算 alpha 

计算 新 的 权重 向 量 D 

更 新 累计 类 别 估 计 值 

如 果 错 误 率 等 于 0.0， 则 退出 循环 


为 了 将 该 函数 放 人 Python 中 ， 打 开 adaboost.py 文 件 并 将 程序 清单 7-2 的 代码 加 入 其 中 。 
程序 清单 7-2 "基于 单 层 决策 树 的 AdaBoost 训 练 过 程 


def adaBoostTrainDs (dataArr,classLabels,numIt=40): 
weakClassArr = [] 
m = shape (dataArr) [0] 
D = mat (ones( (m,1))/m) 
aggClassEst = mat (zeros{( {(m,1))) 
for i in range (numIt): 
beststump,error,classEst = buildstump (dataArr,classLabels,D) 
print "D:",D.T 
alpha = float{(0.5*log((1.0-error) /max (error,1e-16))) 
bestStump ['alpha'] = alpha 
weakClassArr .append (bestStump) 
print "classEst: ",classEst.T 
expon = multiply(-1i*alpha*mat (classLabels) .T,classEst) 为 下 一 次 迭 
D = multiply (D,exp (expon)) 代 计 算 D 
D = D/D.sum()， 
aggClassEst += alpha*classEst 
print "aggClassEst: '",aggClassEst.T :; 己 、 
aggErrors = multiply(sign(aggClassEst) != i# 误 率 累 加 计算 
mat (classLabels) .T,ones ( (m,1))) 
errorRate = aggErrors.sum()/m 
print “total error: ",errorRate,'"\n'" 
if errorRate == 0.0: break 
return weakClassArr 
>>> ClassifierArray = adaboost ,adaBoostyrainDS (datMat, classLabels, 9) 
D: [[ 0.2 0.2 0.2 0.2 0.2]] 
classEst; [{-1. 1. -1. -1. 1.]] 
aggClassEst: [[-0.69314718 0.69314718 -0.69314718 -0.69314718 
0.69314718]] 
total error: 0.2 
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D: [{ 0.5 0.125 0.125 0.125 0.125]] 
classEst;: [[ 1. 1. -1. -1. -1.]] 
aggClassEst: [[ 0.27980789 1.66610226 -1.66610226 -1.66610226 
， -0.27980789]] 
total error: 0.2 
D: [[ 0.28571429 0.07142857 0.07142857 0.07142857 0.5 .]] 
classEst: [| Hes HE 2 Ee es We | 
aggClassEst: [[ 1.17568763 2.56198199 -0.77022252 -0.77022252 
0.61607184]] 
total error: 0.0 


AdaBoost 算 法 的 输入 参数 包括 数据 集 、 类 别 标签 以 及 迭代 次 数 numIt， 其 中 numIt 是 在 整个 
AdaBoost 算 法 中 唯一 需要 用 户 指定 的 参数 。 

我 们 假定 迭代 次 数 设 为 9， 如 果 算 法 在 第 三 次 欠 代 之 后 错误 率 为 0， 那 么 就 会 退出 迭代 过 程 ， 
因此 ， 此 时 就 不 需要 执行 所 有 的 9 次 迭代 过 程 。 每 次 迭代 的 中 间 结 果 都 会 通过 print 语 句 进 行 输 
出 。 后面, 读者 可 以 把 print 输 出 语句 注释 掉 , 但 是 现在 可 以 通过 中 间 结 果 来 了 解 AdaBoost 算 法 
的 内 部 运行 过 程 。 

函数 名 称 尾部 的 DS 代表 的 就 是 单 层 决策 树 ( decision stump )， 它 是 AdaBoost 中 最 流行 的 弱 分 
类 器 ， 当 然 并 非 唯 一 可 用 的 弱 分 类 器 。 上 述 函 数 确实 是 建立 于 单 层 决策 树 之 上 的 ， 但 是 我 们 也 可 
以 很 容易 对 此 进行 修改 以 引入 其 他 基 分 类 器 。 实 际 上 , 任意 分 类 器 都 可 以 作为 基 分 类 器 , 本 书 前 
面 讲 到 的 任何 一 个 算法 都 行 。 上 述 算法 会 输出 一 个 单 层 决策 树 的 数组 , 因此 首先 需要 建立 一 个 新 
的 Python 表 来 对 其 进行 存储 。 然 后 ， 得 到 数据 集中 的 数据 点 的 数目 n， 并 建立 一 个 列 向 量 D。 

向 量 D 非 常 重要 ， 它 包含 了 每 个 数据 点 的 权重 。 一 开始 ， 这 些 权 重 都 赋予 了 相等 的 值 。 在 后 
续 的 迭代 中 ，AdaBoost 算 法 会 在 增加 错 分 数据 的 权重 的 同时 , 降低 正确 分 类 数据 的 权重 。 D 是 一 
个 概率 分 布 向 量 ， 因 此 其 所 有 的 元 素 之 和 为 1.0。 为 了 满足 此 要 求 ， 一 开始 的 所 有 元 素 都 会 被 初 
始 化 成 Mm。 同 时 ， 程 序 还 会 建立 另 一 个 列 向 量 aggclassEst， 记 录 每 个 数据 点 的 类 别 估计 累 
计 值 。 

AdaBoost 算 法 的 核心 在 于 for 循 环 , 该 循环 运行 numIt 次 或 者 直到 训练 错误 率 为 (为止 。 循 环 
中 的 第 一 件 事 就 是 利用 前 面 介 绍 的 bui lastump () 函数 建立 一 个 单 层 决策 树 。 该 函数 的 输入 为 权 
重 向 量 D， 返 回 的 则 是 利用 p 而 得 到 的 具有 最 小 错误 率 的 单 层 决策 树 ， 同 时 返回 的 还 有 最 小 的 错 
误 率 以 及 估计 的 类 别 向 量 。 

接 下 来 ,需要 计算 的 则 是 alpha 值 。 该 值 会 告诉 总 分 类 器 本 次 单 层 决策 树 输出 结果 的 权重 。 其 
中 的 语句 max (error，1le-16) 用 于 确保 在 没有 错误 时 不 会 发 生 除 零 溢出 。 而 后 ，alpha 值 加 入 到 
beststump 字 典 中 ， 该 字典 又 添加 到 列表 中 。 该 字典 包括 了 分 类 所 需要 的 所 有 信息 。 

接 下 来 的 三 行 @@ 则 用 于 计算 下 一 次 迭代 中 的 新 权重 向 量 D。 在 训练 错误 率 为 0 时 ， 就 要 提前 
结束 for 循 环 。 此 时 程序 是 通过 aggclassEst 变 量 保 持 一 个 运行 时 的 类 别 估计 值 来 实现 的 @。 该 
值 只 是 一 个 浮 点 数 ， 为 了 得 到 二 值 分 类 结果 还 需要 调用 sign ( ) 函数 。 如 果 总 错误 率 为 0， 则 由 
break 语 句 中 止 for 循 环 。 

接 下 来 我 们 观察 一 下 中 间 的 运行 结果 。 还 记得 吗 , 数据 的 类 别 标签 为 [1.0, 1.0,-1.0, -1.0, 1.0]。 
在 第 一 轮 迭 代 中 ，D 中 的 所 有 值 都 相等 。 于 是 ， 只 有 第 一 个 数据 点 被 错 分 了 。 因 此 在 第 二 轮 从 代 
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中 , DD 向 量 给 第 一 个 数据 点 0.5 的 权重 。 这 就 可 以 通过 变量 aggclassEst 的 符号 来 了 解 总 的 类 别 。 

第 二 次 迭代 之 后 , 我 们 就 会 发 现 第 一 个 数据 点 已 经 正确 分 类 了 , 但 此 时 最 后 一 个 数据 点 却 是 错 分 

了 。D 向 量 中 的 最 后 一 个 元 素 变 成 0.5， 而 D 向 量 中 的 其 他 值 都 变 得 非常 小 。 最 后 ,第 三 次 迷 代 之 

后 aggclassEst 所 有 值 的 符号 和 真实 类 别 标签 都 完全 吻合 , 那么 训练 错误 率 为 0, 程序 就 此 退出 。 
为 了 观察 classifierArray 的 值 ， 键 人 : 


>>> classifierArray 
[{'Gim': 0, 'ineq': 'lt', ‘thresh': 1.3, 'alpha': 0.69314718055994529}, 
{'dim': 1, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.9729550745276565)}, 
{'dim': 0,'ineq': ‘lt', 'thresh': 0.90000000000000002, 'alpha': 
0.89587973461402726}] 


该 数组 包含 三 部 词典 , 其 中 包含 了 分 类 所 需要 的 所 有 信息 。 此 时 , 一 个 分 类 器 已 经 构建 成 功 ， 
而 且 只 要 我 们 愿意 ， 随 时 都 可 以 将 训练 错误 率 降 到 0。 那 么 测试 错误 率 会 如 何 呢 ? 为 了 观察 测试 
错误 率 ， 我 们 需要 编写 分 类 的 一 些 代码 。 下 一 节 我 们 将 讨论 分 类 。 


7.5 测试 算法 ， 基 于 AdaBoost 的 分 类 


一 旦 拥有 了 多 个 弱 分 类 器 以 及 其 对 应 的 alpha 值 , 进行 测试 就 变 得 相当 容易 了 。 在 程序 清单 7-2 
的 adaBoostTrainDs () 中 ， 我们 实际 已 经 写 完了 大 部 分 的 代码 。 现 在 ， 需 要 做 的 就 只 是 将 弱 分 
类 器 的 训练 过 程 从 程序 中 抽出 来 ,然后 应 用 到 某 个 具体 的 实例 上 去 。 每 个 弱 分 类 器 的 结果 以 其 对 
应 的 aipha 值 作为 权重 。 所 有 这 些 弱 分 类 器 的 结果 加 权 求 和 就 得 到 了 最 后 的 结果 。 在 程序 清单 7-3 
中 列 出 了 实现 这 一 过 程 的 所 有 代码 。 然 后 ， 将 下 列 代码 添加 到 adaboost.py 中 ， 就 可 以 利用 它 基 于 
adaboostTrainDSs () 中 的 弱 分 类 器 对 数据 进行 分 类 。 


程序 清单 7-3 AdaBoost 分 类 函数 
def adqaClassify(datToclass,classifierRArr) : 
dataMatrix = mat (datToClass) 
m = shape(dataMatrix) [0] 
aggClassEst = mat (zeros((m,1))) 
for i in range (len(classifierArr)): 
classEst = stumpClassify(dataMatrix,classifierArr[i] ['dim'],\ 
classifierArr{i] ('thresh'],\ 
classifierarr[i]['ineq']) 
aggClassEst += classifierArr[i] ['alpha']*classEst 
print aggClassEst 
return signl(aggClassEst) 


读者 也 许可 以 猜 到 ， 上 述 的 aqaclassify () 函数 就 是 利用 训练 出 的 多 个 弱 分 类 器 进行 分 类 
的 函数 。 该 函数 的 输入 是 由 一 个 或 者 多 个 待 分 类 样 例 daatTroclass 以 及 多 个 弱 分 类 器 组 成 的 数组 
classifieraArr。 图 数 adqaclassify() 首 先 将 aatTmoclass 转 换 成 了 一 一 个 NumPy 和 矩阵 ， 并 且 得 
到 datToclass 中 的 待 分 类 样 例 的 个 数 m。 然后 构建 一 个 0 列 向量 aggclassEst， 这 个 列 向 量 与 
adaBoostTrainDs () 中 的 含义 一 样 。 
接 下 来 , 遍历 classifierarr 中 的 所 有 弱 分 类 器 ,并 基于 stumpclassify() 对 每 个 分 类 器 
得 到 一 个 类 别 的 估计 值 。 在 前 面 构建 单 层 决策 树 时 ， 我 们 已 经 见 过 了 stumpclassify() 函数 ， 
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在 那里 , 我 们 在 所 有 可 能 的 树桩 值 上 进行 迭代 来 得 到 具有 最 小 加 权 错 误 率 的 单 层 决 策 树 。 而 这 里 
我 们 只 是 简单 地 应 用 了 单 层 决 策 树 ,输出 的 类 别 估 计 值 乘 上 该 单 层 决 策 树 的 alpha 权 重 然后 累加 到 
aggClassEst 上 ， 就 完成 了 这 一 过 程 。 上 述 程序 中 加 入 了 一 条 print 语 句 ， 以 便 我 们 了 解 
aggClassEst 每 次 迭代 后 的 变化 结果 。 最 后 ， 程 序 返 回 aggclassEst 的 符号 ， 即 如 果 
aggClassEst 大 于 0 则 返回 +1， 而 如 果 小 于 0 则 返回 -1。 

我 们 再 看 看 实际 中 的 运行 效果 。 加 入 程序 清单 7-3 中 的 代码 之 后 ， 在 Python 提示 符 下 输入 ， 


>>> reload (adaboost) 
<module 'adaboost' from 'adaboost ,py'!> 


如 果 没 有 弱 分 类 器 数组 ， 可 以 输入 如 下 命令 ; 

>>> datArr,1labelArr=adaboost .loadSsimpDpata () 

>>> classifierArr = adaboost .adaBoostTrainDs (datArr, labelArr, 30) 
于 是 ， 可 以 输入 如 下 命令 进行 分 类 ， 

>>> adaboost .adaClassify([0, 0] ,classifierArr) 

[[-0.69314718]] 

[[-1.66610226]] 

[[-2.56198199]]】 

matrix({[-1.]]) 


可 以 发 现 ， 随 着 迭代 的 进行 ， 数 据点 [0.0] 的 分 类 结 吉 果 越 来 越 强 。 当 然 ， 我们 也 可 以 在 其 他 点 上 进 
行 分 类 ， 


>>> adaboost .adaClassify([[5, 5],{0,0]],classifierArr) 
[[ 0.69314718] 


[-2.56198199]] 
matrix{([[ 1.], 
[-1.]]) 


这 两 个 点 的 分 类 结果 也 会 随 着 迭代 的 进行 而 越 来 越 强 。 在 下 一 节 中 , 我 们 会 将 该 分 类 器 应 用 
到 一 个 规模 更 大 、 难 度 也 更 大 的 真实 数据 集中 。 


7.6 示例 : 在 一 个 难 数据 集 上 应 用 AdaBoost 


本 节 我 们 将 在 第 4 章 给 出 的 马 疝 病 数据 集 上 应 用 AdaBoost 分 类 器 。 在 第 4 章 ， 我 们 曾经 利用 
Logistic 回 归来 预测 患 有 疝 病 的 马 是 否 能 够 存活 。 而 在 本 节 ， 我 们 则 想 要 知道 如 果 利 用 多 个 单 层 
决策 树 和 AdaBoost 能 不 能 预测 得 更 准 。 


| a 示例 ， 在 一 个 难 数据 集 击 的 AaaobstE 

(1) 收集 数据， 提供 的 文本 文件 。 

(2) 准备 数据 : 确保 类 别 标 签 是 +1 和 -1 而 非 1 和 0。 

(3) 分 析 数 据 : 手工 检查 数据 。 

(4) 训练 算法 : 在 数据 上 ， 利用 adaBoostTrainDs () 函数 训练 出 一 系列 的 分 类 器 。 
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(5) 测试 算法 : 我 们 拥有 两 个 数据 集 。 在 不 采用 随机 抽样 的 方法 下 ， 我 们 就 会 对 AdaBoost 
和 Logistic 回 归 的 结果 进行 完全 对 等 的 比较 。 
(6) 使 用 算法 : 观察 该 例子 上 的 错误 率 。 不 过 ， 也 可 以 构建 一 个 Web 网 站 ， 让 囊 蕊 师 输入 
马 的 症状 然后 预测 马 是 否 会 死去 。 1 1 


在 使 用 上 述 程序 清单 中 的 代码 之 前 ， 必 须要 有 向 文件 中 加 载 数据 的 方法 。 一 个 常见 的 
loadDataset () 的 程序 如 下 所 示 。 


程序 清单 7-4” 自 适应 数据 加 载 函数 
Gef loadDataset (fileName): 
numFeat = len(open(fileName) .readline() .split('\t')) 

dataMat = {[]; labelMat = [] 

fr = open (fileName) 

for line in fr.readlines(): 
lineaArr = 人 
curLine = line.strip() .split('\t') 
for i in range (numFeat-1): 

lineArr.append {float (curLine [i}]))} 

dataMat .append (lineArr) 
labelMat .append (float (curLine[-1])) 

return dataMat, labelMat 


之 前 ,读者 可 能 多 次 见 过 了 上 述 程序 清单 中 的 1oaaDataSset () 函数 。 在 这 里 ， 并 不 必 指 定 
每 个 文件 中 的 特征 数目 ,所 以 这 里 的 函数 与 前 面 的 稍 有 不 同 。 该 函数 能 够 自动 检测 出 特征 的 数目 。 
同时 ， 该 函数 也 假定 最 后 一 个 特征 是 类 别 标签 。 

将 上 述 代码 添加 到 adaboost ,py 文件 中 并 且 将 其 保存 之 后 ， 就 可 以 输入 如 下 命令 来 使 用 上 
述 函 数 ， 

>>> datArr, labelArr = adqaboost ,1oadqDataSet ('horseColicTraining2.txt'!) 

>>> ClassifierArray = adaboost .adaBoostTrainDs (datArr, labelArr,10) 


total error: 0.284280936455 
total error: 0.284280936455 


total error: 0.230769230769 

>>> testArr,testLabelArr = adaboost ,loadDataset ('horseColicTest2.txt') 
>>> prediction1i0 = adaboost .adaClassify (testArr,classifierArray) 

To get the number of misclassified examples type in: 

>>> errArr=mat (ones ((67,1))) 

>>> errArr [prediction10!=mat (testLabelArr) .T] .sum() 

二 


要 得 到 错误 率 ， 只 需 将 上 述 错 分 样 例 的 个 数 除 以 67 即 可 。 

将 弱 分 类 器 的 数目 设 定 为 1 到 10 000 之 间 的 几 个 不 同 数字 ， 并 运行 上 述 过 程 。 这 时 ， 得 到 的 
结果 就 会 如 表 7-1 所 示 。 在 该 数据 集 上 得 到 的 错误 率 相当 低 。 如 果 没 忘 的 话 ， 在 第 5 章 中 ,我 们 在 
同一 数据 集 上 采用 Logistic 回 归 得 到 的 平均 错误 率 为 0.35。 而 采用 AdaBoost, 得 到 的 错误 率 就 永远 
不 会 那么 高 了 。 从 表 中 可 以 看 出 ， 我 们 仅仅 使 用 50 个 弱 分 类 器 ， 就 达到 了 较 高 的 性 能 。 
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表 7-1 不 同 弱 分 类 器 数目 情况 下 的 AdaBoost 测 试 和 分 类 错误 率 。 该 数据 集 是 个 难 数 据 集 。 通 党 
情况 下 ，AdaBoost 会 达到 一 个 稳定 的 测试 错误 率 ， 而 并 不 会 随 分 类 器 数目 的 增多 而 提高 





分 类 器 数目 训练 错误 率 〈%) 测试 错误 率 (%) 
1 0.28 0.27 
10 0.23 0.24 
50 0.19 0.21 
100 0.19 | 0.22 
500 0.16 :0.25 
1000 0.14 0.31 
10000 0.11 0.33 





观察 表 7-1 中 的 测试 错误 率 一 栏 ， 就 会 发 现 测试 错误 率 在 达到 了 -一 个 最 小 值 之 后 又 开始 上 升 
了 。 这 类 现象 称 之 为 过 拟 合 ( overfitting， 也 称 过 学 习 )。 有 文献 声称 ， 对 于 表现 好 的 数据 集 ， 
AdaBoost 的 测试 错误 率 就 会 达到 一 个 稳定 值 ， 并 不 会 随 着 分 类 器 的 增多 而 上 升 。 或 许 在 本 例子 中 
的 数据 集 也 称 不 上 “表现 好 ”"。 该 数据 集 一 开始 有 30% 的 缺失 值 ， 对 于 Logistic 回 归 而 言 ， 这 些 缺 
失 值 的 假设 就 是 有 效 的 ， 而 对 于 决策 树 却 可 能 并 不 合适 。 如 果 回 到 数据 集 ， 将 所 有 的 0 值 替 换 成 
其 他 值 ， 或 者 给 定 类 别 的 平均 值 ， 那 么 能 否 得 到 更 好 的 性 能 ? 

很 多 人 都 认为 , AdaBoost 和 SVM 是 监督 机 器 学 习 中 最 强大 的 两 种 方法 。 实 际 上 , 这 两 者 之 间 
拥有 不 少 相似 之 处 。 我 们 可 以 把 弱 分 类 器 想象 成 SVM 中 的 一 个 核 函 数 , 也 可 以 按照 最 大 化 某 个 最 
小 间隔 的 方式 重 写 AdaBoost 算 法 。 而 它们 的 不 同 就 在 于 其 所 定义 的 间隔 计算 方式 有 所 不 同 ,因此 
导致 的 结果 也 不 同 。 特 别 是 在 高 维 空间 下 ， 这 两 者 之 间 的 差异 就 会 更 加 明显 。 

在 下 一 节 中 ， 我 们 不 再 讨论 AdaBoost， 而 是 转 而 关注 所 有 分 类 器 中 的 一 个 普遍 问题 。 


7.7” 非 均衡 分 类 问题 


在 我 们 结束 分 类 这 个 主题 之 前 ， 还 必须 讨论 一 个 问题 。 在 前 面 六 章 的 所 有 分 类 介绍 中 ， 
我 们 都 假设 所 有 类 别 的 分 类 代价 是 一 样 的 。 例 如 在 第 5 章 ， 我们 构建 了 一 个 用 于 检测 患 疝 病 的 
马匹 是 否 存活 的 系统 。 在 那里 ， 我 们 构建 了 分 类 器 ， 但 是 并 没有 对 分 类 后 的 情形 加 以 讨论 。 
假如 某 人 给 我 们 牵 来 一 匹 马 ， 他 希望 我 们 能 预测 这 匹 马 能 否 生存 。 我 们 说 马 会 死 ， 那 么 他 们 
就 可 能 会 对 马 实 施 安乐 死 ， 而 不 是 通过 给 马 喂 药 来 延缓 其 不 可 避免 的 死亡 过 程 。 我 们 的 预测 
也 许 是 错误 的 , 马 本 来 是 可 以 继续 活着 的 。 毕 竟 , 我 们 的 分 类 器 只 有 80% 的 精确 率 ( accuracy )。 
如 果 我 们 预测 错误 ， 那 么 我 们 将 会 错 杀 了 一 个 如 此 昂贵 的 动物 ， 更 不 要 说 人 对 马 还 存在 情感 
上 的 依恋 。 

如 何 过 滤 垃 圾 邮件 呢 ? 如 果 收 件 箱 中 会 出 现 某 些 垃圾 邮件 , 但 合法 邮件 永远 不 会 扔 进 垃圾 邮 
件 夹 中 , 那么 人 们 是 否 会 满意 呢 ? 癌症 检测 又 如 何 呢 ? 只 要 和 患 病 的 人 不 会 得 不 到 治疗 , 那么 再 找 
一 个 医生 来 看 看 会 不 会 更 好 呢 ( 即 情愿 误 判 也 不 漏 判 ) ? 

还 可 以 举 出 很 多 很 多 这 样 的 例子 ,坦白 地 说 ,在 大 多 数 情况 下 不 同类 别 的 分 类 代价 并 不 相等 。 
在 本 节 中 , 我 们 将 会 考察 一 种 新 的 分 类 器 性 能 度量 方法 , 并 通过 图 像 技 术 来 对 在 上 述 非 均衡 问题 











128 第 7 章 利用 AdaBoost 元 算法 提高 分 类 性 能 





下 不 同 分 类 器 的 性 能 进行 可 视 化 处 理 。 然 后 , 我 们 考察 这 两 种 分 类 器 的 变换 算法 ， 它 们 能 够 将 不 
同 决策 的 代价 考虑 在 内 。 


7.7.1 其 他 分 类 性 能 度量 指标 :; 正确 率 、 召 回 率 及 ROC 曲线 


到 现在 为 止 , 本 书 都 是 基于 错误 率 来 衡量 分 类 器 任务 的 成 功 程度 的 。 错误 率 指 的 是 在 所 有 测 
试 样 例 中 错 分 的 样 例 比例 。 实际 上 , 这样 的 度量 错误 掩盖 了 样 例如 何 被 分 错 的 事实 。 在 机 器 学 习 
中 ， 有 一 个 普遍 适用 的 称 为 混淆 算 了 泗 ( confusion matrix ) 的 工具 ， 它 可 以 帮助 人 们 更 好 地 了 解 分 
类 中 的 错误 。 有 这 样 一 个 关于 在 房子 周围 可 能 发 现 的 动物 类 型 的 预测 ， 这 个 预测 的 三 类 问题 的 混 
消 和 矩阵 如 表 7-2 所 示 。 


表 7-2 ”一 个 三 类 问题 的 混淆 矩阵 









预测 结果 
狗 猫 鼠 
狗 24 2 5 
猫 2 27 0 
5 





真实 结果 





利用 混 江 算 阵 就 可 以 更 好 地 理解 分 类 中 的 错误 了 。 如 果 和 矩阵 中 的 非 对 角 元 素 均 为 0， 就 会 得 
到 一 个 完美 的 分 类 器 。 

接 下 来 ， 我 们 考虑 另外 一 个 混淆 矩阵 ， 这 次 的 矩阵 只 针对 一 个 简单 的 二 类 问题 。 在 表 7-3 中 ， 
给 出 了 该 混淆 和 矩阵。 在 这 个 二 类 问题 中 ,如 果 将 一 个 正 例 判 为 正 例 ， 那 么 就 可 以 认为 产生 了 一 个 
真正 例 ( True Positive，TP， 也 称 真 阳 ); 如 果 对 一 个 反例 正确 地 判 为 反例 ， 则 认为 产生 了 一 个 真 
反例 (True Negative, TN, 也 称 真 阴 )。 相 应 地 , 另外 两 种 情况 则 分 别称 为 伪 反 例 (False Negative， 
FEN， 也 称 假 阴 ) 和 伪 正 例 ( False Positive，FP， 也 称 假 阳 )。 这 4 种 情况 如 表 7-3 所 示 。 


表 7-3 ”一 个 二 类 问题 的 混淆 矩阵 ， 其 中 的 输出 采用 了 不 同 的 类 别 标签 
预测 结果 

+ —l 
真正 例 .( TP ) 伪 反 例 (FN ) 
伪 正 例 (FP ) 真 反例 (TN ) 


在 分 类 中 ， 当 某 个 类 别 的 重要 性 高 于 其 他 类 别 时 ， 我 们 就 可 以 利用 上 述 定义 来 定义 出 多 个 比 错 
误 率 更 好 的 新 指标 。 tr ( Precision )， 它 等 于 TPATP+FP)， 给 出 的 是 预测 为 正 例 的 
样本 中 的 真正 正 例 的 比例 。 第 二 个 指标 是 召回 率 ( Recall )， 它 等 于 TPKTP+FN)， 给 出 的 是 预测 为 正 
例 的 真实 正 例 占 所 有 真实 正 例 的 比例 。 在 召回 率 很 大 的 分 类 器 中 ， 真 正 判 错 的 正 例 的 数目 并 不 多 。 

我 们 可 以 很 容易 构造 一 个 高 正确 率 或 高 召回 率 的 分 类 器 , 但 是 很 难 同时 保证 两 者 成 立 。 如 果 
将 任何 样本 都 判 为 正 例 , 那么 召 回 率 达 到 百分之百 而 此 时 正确 率 很 低 。 构建 一 个 同时 使 正确 率 和 
召回 率 最 大 的 分 类 器 是 具有 挑战 性 的 。 
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另 一 个 用 于 度量 分 类 中 的 非 均衡 性 的 工具 是 ROC 曲 线 ( ROC curve ), ROC 代 表 接 收 者 操作 特 
征 (receiver operating characteristic )， 它 最 早 在 二 战 期 间 由 电气 工程 师 构建 雷达 系统 时 使 用 过 。 
图 7-3 给 出 了 一 条 ROC 曲 线 的 例子 。 


AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


1.0 





0.8 上 - 


0.4 


0.2 上 





00.6 02 0.4 0.6 0.8 1.0 
阳 率 


图 7-3 ”利用 10 个 单 层 决策 树 的 AdaBoost 马 疝 病 检测 系统 的 ROC 时 线 


在 图 7-3 的 ROC 曲 线 中 , 给 出 了 两 条 线 , 一 条 虚线 一 条 实 线 。 图 中 的 横 轴 是 伪 正 例 的 比例 ( 假 
阳 率 =FP/(FP+TN) )， 而 纵 轴 是 真正 例 的 比例 ( 真 阳 率 =TP/(TP+FN) )。ROC 曲 线 给 出 的 是 当 阔 值 
变化 时 假 阳 率 和 真 阳 率 的 变化 情况 。 左 下 角 的 点 所 对 应 的 是 将 所 有 样 例 判 为 反例 的 情况 , 而 右上 
角 的 点 对 应 的 则 是 将 所 有 样 例 判 为 正 例 的 情况 。 虚 线 给 出 的 是 随机 猜测 的 结果 曲线 。 

ROC 曲 线 不 但 可 以 用 于 比较 分 类 器 ， 还 可 以 基于 成 本 效益 (cost-versus-benefit ) 分 析 来 做 出 
决策 。 由 于 在 不 同 的 阔 值 下 ,不 同 的 分 类 器 的 表现 情况 可 能 各 不 相同 ， 因 此 以 某 种 方式 将 它们 组 
合 起 来 或 许 会 更 有 意义 。 如 果 只 是 简单 地 观察 分 类 器 的 错误 率 , 那么 我 们 就 难以 得 到 这 种 更 深入 
的 洞察 效果 了 。 

在 理想 的 情况 下 ,最 佳 的 分 类 器 应 该 尽 可 能 地 处 于 左上 角 , 这 就 意味 着 分 类 器 在 假 阳 率 很 低 
的 同时 获得 了 很 高 的 真 阳 率 。 例 如 在 垃圾 邮件 的 过 滤 中 ,这 就 相当 于 过 滤 了 所 有 的 垃圾 邮件 , 但 
没有 将 任何 合法 邮件 误 识 为 垃圾 邮件 而 放 入 垃圾 邮件 的 文件 夹 中 。 

对 不 同 的 ROC 曲 线 进 行 比较 的 一 个 指标 是 曲线 下 的 面积 ( Area Unser the Curve, AUC )。 AUC 
给 出 的 是 分 类 咒 的 平均 性 能 值 ， 当 然 它 并 不 能 完全 代替 对 整 条 曲线 的 观察 。 一 个 完美 分 类 器 的 
AUC 为 1.0， 而 随机 猜测 的 AUC 则 为 0.5。 

为 了 画 出 ROC 曲 线 , 分 类 器 必须 提供 每 个 样 例 被 判 为 阳性 或 者 阴性 的 可 信 程 度 值 。 尽 管 大 多 
数 分 类 器 都 能 做 到 这 一 点 ， 但 是 通常 情况 下 ， 这 些 值 会 在 最 后 输出 离散 分 类 标签 之 前 被 清除 。 朴 
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素 贝 叶 斯 能 够 提供 一 个 可 能 性 ， 而 在 Logistic 回 归 中 输入 到 Sigmoid 函 数 中 的 是 一 个 数值 。 在 
AdaBoost 和 SVM 中 ， 都 会 计算 出 一 个 数值 然后 输入 到 sign () 函数 中 。 所 有 的 这 些 值 都 可 以 用 于 
衡量 给 定 分 类 器 的 预测 强度 。 为 了 创建 ROC 曲 线 ， 首 先 要 将 分 类 样 例 按照 其 预测 强度 排序 。 先 从 
排名 最 低 的 样 例 开 始 , 所 有 排名 更 低 的 样 例 都 被 判 为 反例 , 而 所 有 排名 更 高 的 样 例 都 被 判 为 正 例 。 
该 情况 的 对 应 点 为 <1.0,1.0>。 然 后 ， 将 其 移 到 排名 次 低 的 样 例 中 去 ， 如 果 该 样 例 属 于 正 例 ,那么 
对 真 阳 率 进 行 修改 ， 如 果 该 样 例 属于 反例 ， 那 么 对 假 阴 率 进行 修改 。 

上 述 过 程 听 起 来 有 点 容易 让 人 混淆 ， 但 是 如 果 阅 读 一 下 程序 清单 7-5 中 的 代码 ， 一 切 就 会 变 

一 月 了 然 了 。 打 开 adaboost.py 文 件 并 加 入 如 下 代码 。 


程序 清单 7-5 ROC 曲 线 的 绘制 及 AUC 计 算 函 数 


def plotROC (predstrengths, classLabels): 
import matplotlib.pyplot as plt 
cur = (1.0,1.0) 
ySum = 0.0 
numpPosClas = sum(array (classLabels)==1.0) 
yStep = 1/float (numposClas) 
xStep = 1/float (len(classLabels) -numPosClas) 
sortedIindicies = predstrengths.argsort () 
fig = plt.figure() 
fig.cif() | 
ax = plt.subplot (111) 
for index in sortedIndicies,.tolist() [0]: 
if classLabels [index] == 0: 

delxX = 0; delY = yStep; 
else: 

delx = xStep; delY = 0;，; 

YSum += cur[1] 
ax.plot({[cur{0] ,cur[0] -delx], {cur[{1] ,cur[1] -delY], c='b') 
cur = (cur[0] -delx,cur{1] -delY) 

ax.plot([0,1], [0,1},'b--') 

plt.xlabel('False Positive Rate'); plt.ylabel('True Positive Rate') 
plt.title('ROC curve for AdaBoost Horse Colic Detection System') 
ax.axis([0,1,0,1]) 

plt .show() 

print ‘the Area Under the Curve is: '‘,ySum*xStep 


-0 获取 排 好 序 的 索引 


上 述 程序 中 的 函数 有 两 个 输入 参数 , 第 一 个 参数 是 一 个 NumPy 数 组 或 者 一 个 行 向 量 组 成 的 矩 
阵 。 该 参数 代表 的 则 是 分 类 器 的 预测 强度 。 在 分 类 器 和 训练 函数 将 这 些 数 值 应 用 到 sign() 函数 
之 前 , 它们 就 已 经 产生 了 。 尽 管 很 快 就 可 以 看 到 该 函数 的 实际 执行 效果 , 但 是 我 们 还 是 要 先 讨 论 
一 下 这 段 代码 。 函 数 的 第 二 个 输入 参数 是 先前 使 用 过 的 classLabels。 我 们 首先 早 信 pyplot， 
然后 构建 一 个 浮 点 数 二 元 组 ， 并 将 它 初始 化 为 (1,0,1.0)。 该 元 组 保留 的 是 绘制 光标 的 位 置 ， 变 量 
ysum 则 用 于 计算 AUC 的 值 。 接 下 来 ， 通 过 数组 过 滤 方 式 计算 正 例 的 数目 ， 并 将 该 值 赋 给 
numPosClas。 该 值 先 是 确定 了 在 y 坐 标 轴 上 的 步 进 数 目 ， 接 着 我 们 在 x 轴 和 y 轴 的 0.0 到 1.0 区 间 上 
绘 点 ， 因 此 y 轴 上 的 步 长 是 1.0/mumPosClas。 类 似 地 ， 就 可 以 得 到 x 轴 的 步 长 了 。 

接 下 来 , 我们 得 到 了 排序 索引 人 @, 但 是 这 些 索 引 是 按照 最 小 到 最 大 的 顺序 排列 的 ， 因此 我 们 
需要 从 点 <1.0,1.0> 开 始 绘 ， 一 直到 <0,0>。 中 着 的 三 行 代码 则 是 用 于 构建 画笔 ， 并 在 所 有 排序 值 
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上 进行 循环 。 这 些 值 在 一 个 NumPy 数 组 或 者 矩阵 中 进行 排序 ,Python 则 需要 一 个 表 来 进行 迭代 特 
环 ， 因 此 我 们 需要 调用 tolist () 方 法 。 当 人 遍历 表 时 ， 每 得 到 一 个 标签 为 1.0 的 类 ， 则 要 沿 着 ) 埋 
的 方向 下 降 一 个 步 长 ， 即 不 断 降 低 真 阳 率 。 类 似 地 ， 对 于 每 个 其 他 类 别 的 标签 ， 则 是 在 x 轴 方向 
上 倒退 了 一 个 步 长 〈 假 阴 率 方向 )。 上 述 代码 只 关注 1 这 个 类 别 标签 ， 因 此 就 无 所 谓 是 采用 1/0 标 
得 还 是 +1/-1 标 签 。 

为 了 计算 AUC, 我 们 需要 对 多 个 小 矩形 的 面积 进行 累加 。 这 些小 矩形 的 宽度 是 xstep,， 因此 
可 以 先 对 所 有 和 矩形 的 高 度 进行 累加 ,最 后 再 乘 以 xstep 得 到 其 总 面积 。 所 有 高 度 的 和 (ysum ) 随 
着 x 轴 的 每 次 移动 而 渐次 增加 。 一 旦 决定 了 是 在 x 轴 还 是 y 轴 方向 上 进行 移动 的 ， 我 们 就 可 以 在 当 
前 点 和 新 点 之 间 画 出 一 条 线段 。 然 后 ， 当 前 点 cuz 更 新 了 。 最 后 ， 我 们 就 会 得 到 一 个 像样 的 绘图 
并 将 AUC 打 印 到 终端 输出 。 

了 解 实际 运行 效果 ， 我 们 需要 将 adaboostTrainDs () 的 最 后 一 行 代码 替换 成 : 


return weakClassArr,aggClassEst 


以 得 到 aggclassEst 的 值 。 然 后 ， 在 Python 提 示 符 下 键入 如 下 命令 : 


>>> reload (adaboost) 
<module 'adaboost' from 'adqaboost .pyc'> 
>>> datArr,labelArr = adaboost.loadDataSset ('horseColicTraining2 .txt') 
>>> classifierArray,aggClassEst = 
adaboost .adqaBoostTrainDS (datArr, labelArr, 10) 
>>> adaboost .plotROC (aggClassEst.T, labelArr) 
the Area Under the Curve is: 0.858296963506 


我 们 也 会 了 解 到 和 图 7-3 一 样 的 ROC 曲 线 。 这 是 在 10 个 弱 分 类 器 下 ，AdaBoost 算 法 性 能 的 结 
果 。 我 们 还 记得 ， 当 初 我 们 在 40 个 弱 分 类 器 下 得 到 了 最 优 的 分 类 性 能 ， 那 么 这 种 情况 下 的 ROC 
曲线 会 如 何 呢 ? 这 时 的 AUC 是 不 是 更 好 呢 ? 


7.7.2 ”基于 代价 函数 的 分 类 器 决策 控制 


除了 调节 分 类 器 的 阔 值 之 外 ， 我 们 还 有 一 些 其 他 可 以 用 于 处 理 非 均匀 分 类 代价 问题 的 方法 ， 
其 中 的 一 种 称 为 代价 敏感 的 学 习 ( cost-sensitive learning )。 考 虑 表 7-4 中 的 代价 矩阵 ， 第 一 张 表 给 
出 的 是 到 目前 为 止 分 类 器 的 代价 矩阵 〈 代价 不 是 0 就 是 1 )。 我 们 可 以 基于 该 代价 矩阵 计算 其 总 代 
价 : TP*0+FN*1+FP*1+TN*0。 接 下 来 我 们 考虑 下 面 的 第 二 张 表 ， 基 于 该 代价 矩阵 的 分 类 代价 的 
计算 公式 为 : TP* (-5)+FN*1+FP*50+TN*0。 采用 第 二 张 表 作 为 代价 矩阵 时 ,两 种 分 类 错误 的 代 
价 是 不 一 样 的 。 类似 地 ， 这 两 种 正确 分 类 所 得 到 的 收益 也 不 一 样 。 如 果 在 构建 分 类 器 时 ， 知 道 了 
这 些 代价 值 ， 那 么 就 可 以 选择 付出 最 小 代价 的 分 类 器 。 

在 分 类 算法 中 , 我 们 有 很 多 方法 可 以 用 来 引入 代价 信息 。 在 AdaBoost 中 ,可 以 基于 代价 函数 
来 调整 错误 权重 向 量 D。 在 朴素 贝 叶 斯 中 ， 可 以 选择 具有 最 小 期 望 代 价 而 不 是 最 大 概率 的 类 别 作 
为 最 后 的 结果 。 在 SVM 中 ， 可 以 在 代价 函数 中 对 于 不 同 的 类 别 选 择 不 同 的 参数 Cc。 上 述 做 法 就 会 
给 较 小 类 更 多 的 权重 ， 即 在 训练 时 ， 小 类 当中 只 人 允许 更 少 的 错误 。 








四 
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表 7-4 ”一 个 二 类 问题 的 代价 矩阵 














预测 结果 
+1 一 ] 
十 1 0 1 
真实 结果 
一 | 0 
预测 结果 
十 ] 一 | 
+1 一 5 1 
真实 结果 
一 1 50 0 


7.7.3 处理 非 均衡 问题 的 数据 抽样 方法 


另外 一 种 针对 非 均衡 问题 调节 分 类 器 的 方法 ， 就 是 对 分 类 器 的 训练 数据 进行 改造 。 这 可 以 通 
过 入 抽样 《undersampling ) 或 者 过 抽样 (oversampling ) 来 实现 。 过 抽样 意味 着 复制 样 例 ， 而 欠 
抽样 意味 着 删除 样 例 。 不管 采用 哪 种 方式 ， 数据 都 会 从 原始 形式 改造 为 新 形式 。 抽 样 过 程 则 可 以 
通过 随机 方式 或 者 某 个 预定 方式 来 实现 。 : . 

通常 也 会 存在 某 个 罕见 的 类 别 需要 我 们 来 识别 ， 比如 在 信用 卡 欺诈 当中 。 如 前 所 述 ， 正 例 类 
别 属于 罕见 类 别 。 我 们 希望 对 于 这 种 罕见 类 别 能 尽 可 能 保留 更 多 的 信息 ， 因此 , 我 们 应 该 保留 正 
例 类 别 中 的 所 有 样 例 ,而 对 反例 类 别 进行 欠 抽 样 或 者 样 例 删 除 处 理 。 这 种 方法 的 一 个 缺点 就 在 于 
要 确定 哪些 样 例 需 要 进行 剔除 。 但 是 , 在 选择 剔除 的 样 例 中 可 能 携带 了 剩余 样 例 中 并 不 包含 的 有 
价值 信息 。 

上 述 问题 的 一 种 解决 办 法 ， 就 是 选择 那些 离 决 策 边 界 较 远 的 样 例 进行 删除 。 假 定 我 们 有 一 个 
数据 集 ,其 中 有 50 例 信用 卡 欺诈 交易 和 5000 例 合法 交易 。 如 果 我 们 想 要 对 合法 交易 样 例 进 行 欠 抽 
样 处 理 , 使 得 这 两 类 数据 比较 均衡 的 话 ， 那么 我 们 就 需要 去 掉 4950 个 样 例 ， 而 这 些 样 例 中 可 能 包 
含 很 多 有 价值 的 信息 。 这 看 上 去 有 些 极端 ， 因此 有 一 种 替代 的 策略 就 是 使 用 反例 类 别 的 欠 抽样 和 
正 例 类 别 的 过 抽样 相 混合 的 方法 。 

要 对 正 例 类 别 进行 过 抽样 , 我 们 可 以 复制 已 有 样 例 或 者 加 入 与 已 有 样 例 相 似 的 点 。 一 种 方法 
是 加 入 已 有 数据 点 的 插值 点 ， 但 是 这 种 做 法 可 能 会 导致 过 拟 合 的 问题 。 


7.8 本 章 小 结 


集成 方法 通过 组 合 多 个 分 类 器 的 分 类 结果 ,获得 了 比 简单 的 单 分 类 器 更 好 的 分 类 结果 。 有 
些 利用 不 同 分 类 器 的 集成 方法 ， 但 是 本 章 只 介绍 了 那些 利用 同一 类 分 类 器 的 集成 方法 。 

多 个 分 类 器 组 合 可 能 会 进一步 凸显 出 单 分 类 器 的 不 足 ， 比 如 过 拟 合 问题 。 如 果 分 类 器 之 间 关 
别 显著 , 那么 多 个 分 类 器 组 合 就 可 能 会 缓解 这 一 问题 。 分 类 器 之 间 的 差别 可 以 是 算法 本 身 或 者 是 
应 用 于 算法 上 的 数据 的 不 同 。 
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本 章 介 绍 的 两 种 集成 方法 是 bagging 和 boosting。 在 bagging 中 ， 是 通过 随机 抽样 的 替换 方式 ， 
得 到 了 与 原始 数据 集 规模 一 样 的 数据 集 。 而 boosting 在 bagging 的 思路 上 更 进 了 一 步 ， 它 在 数据 集 
上 顺序 应 用 了 多 个 不 同 的 分 类 器 。 另 一 个 成 功 的 集成 方法 就 是 随机 森林 , 但 是 由 于 随机 森林 不 如 
AdaBoost 流 行 ， 所 以 本 书 并 没有 对 它 进 行 介绍 。 

本 章 介绍 了 boosting 方 法 中 最 流行 的 一 个 称 为 AdaBoost 的 算法 。AdaBoost 以 弱 学 习 器 作为 基 
分 类 髓 ,并且 输入 数据 ， 使 其 通过 权重 向 量 进行 加 权 。 在 第 一 次 迭代 当中 ， 所 有 数据 都 等 权重 。 
但 是 在 后 续 的 迭代 当中 ， 前 次 迭代 中 分 错 的 数据 的 权重 会 增 大 。 这 种 针对 错误 的 调节 能 力 正 是 
AdaBoost 的 长 处 。 

本 章 以 单 层 决策 树 作 为 弱 学 习 器 构建 了 AdaBoost 分 类 器 。 实 际 上 ，AdaBoost 函 数 可 以 应 用 于 


任意 分 类 器 ， 只 要 该 分 类 器 能 够 处 理 加 权 数 据 即 可 。AdaBoost 算 法 十 分 强大 ， 它 能 够 快速 处 理 其 


他 分 类 器 很 难处 理 的 数据 集 。 

非 均 衡 分 类 问题 是 指 在 分 类 器 训练 时 正 例 数目 和 反例 数目 不 相等 ( 相差 很 大 )。 该 问题 在 错 
分 正 例 和 反例 的 代价 不 同时 也 存在 。 本 章 不 仅 考察 了 一 种 不 同 分 类 器 的 评价 方法 RoC 曲线 ， 
还 介绍 了 正确 率 和 召回 率 这 两 种 在 类 别 重要 性 不 同时 ， 度 量 分 类 器 性 能 的 指标 。 

本 章 介绍 了 通过 过 抽样 和 欠 抽 样 方法 来 调节 数据 集中 的 正 例 和 反例 数目 。 另 外 一 种 可 能 更 好 
的 非 均 衔 问 题 的 处 理 方法 ， 就 是 在 训练 分 类 器 时 将 错误 的 代价 考虑 在 内 。 

到 目前 为 止 ， 我 们 介绍 了 一 系列 强大 的 分 类 技术 。 本 章 是 分 类 部 分 的 最 后 一 章 ， 接 下 来 我 们 
将 进入 另 一 类 监督 学 习 算法 一 一 回归 方法 ， 这 也 将 完善 我 们 对 监督 方法 的 学 习 。 回 归 很 像 分 类 ， 
但 是 和 分 类 输出 标 称 型 类 别 值 不 同 的 是 ， 回 归 方 法 会 预测 出 一 个 连续 值 。 
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本 书 的 第 二 部 分 由 第 8 章 和 第 9 章 组 成 ， 主 要 介绍 了 回归 方法 。 回 归 是 第 1 ~ 7 章 的 监督 
学 习 方法 的 延续 。 前 面 说 过 ， 监 督学 习 指 的 是 有 目标 变量 或 预测 目标 的 机 器 学 习 方法 。 回 归 与 
分 类 的 不 同 ， 就 在 于 其 目标 变量 是 连续 数值 型 。 

第 8 章 介 绍 了 线性 回归 、 局 部 加 权 线性 回归 和 收缩 方法 。 第 9 章 则 借用 了 第 3 章 树 构 建 的 
一 些 思想 并 将 其 应 用 于 回归 中 ， 从 而 得 到 了 树 回归 。 
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本 章 内 容 

口 线性 回归 

口 局 部 加 权 线 性 回归 

口 岭 回归 和 逐步 线性 回归 
口 预测 鲍鱼 年 龄 和 玩具 售 价 


本 书 前 面 的 章节 介绍 了 分 类 , 分 类 的 目标 变量 是 标 称 型 数据 , 而 本 章 将 会 对 连续 型 的 数据 做 
出 预测 。 读 者 很 可 能 有 这 样 的 疑问 :“ 回 归 能 用 来 做 些 什么 呢 ?”。 我 的 观点 是 ， 回 归 可 以 做 任何 
事情 。 然 而 大 多 数 公司 常常 使 用 回归 法 做 一 些 比较 沉闷 的 事情 ,例如 销售 量 预 测 或 者 制造 缺陷 预 
测 。 我 最 近 看 到 一 个 比较 有 新 意 的 应 用 ， 就 是 预测 名 人 的 离婚 率 。 

本 章 首先 介绍 线性 回归 ,包括 其 名 称 的 由 来 和 Python 实现 。 在 这 之 后 引入 了 局 部 平滑 技术 ， 
分 析 如 何 更 好 地 拟 合 数据 。 接 下 来 ， 本 章 将 探讨 回归 在 “ 欠 拟 合 "情况 下 的 缩减 《shrinkage ) 
技术 ,探讨 偏差 和 方差 的 概念 。 最 后 ， 我 们 将 融合 所 有 技术 ， 预 测 鲍鱼 的 年 龄 和 玩具 的 售 价 。 
此 外 为 了 获取 一 些 玩 具 的 数据 , 我 们 还 将 使 用 Python 来 做 一 些 采集 的 工作 。 这 一 章 的 内 容 会 十 
分 丰富 。 


8.1 用 线性 回归 找到 最 佳 拟 合 直线 


| 线性 回归 
优点 : 结果 易于 理解 ， 计 算 上 不 复杂 。 
缺点 : 对 非 线性 的 数据 拟 合 不 好 。 
适用 数据 类 型 ， 数 值 型 和 标 称 型 数据 。 


回归 的 目的 是 预测 数值 型 的 目标 值 。 最 直接 的 办 法 是 依据 输入 写 出 一 个 目标 值 的 计算 公式 。 
假如 你 想 要 预测 姐姐 男友 汽车 的 功率 大 小 ， 可 能 会 这 么 计算 ， 


HorsePower = 0.0015*annualSalary -0.99*hoursListeningToPublicRadio 
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这 就 是 所 谓 的 回归 方程 (regression equation ), 其 中 的 0.0015 和 -0.99 称 作 回 归 系 数 (regression 
weights )， 求 这 些 回归 系数 的 过 程 就 是 回归 。 一 旦 有 了 这 些 回归 系数 ， 再 给 定 输入 ， 做 预测 就 非 
常 容易 了 。 具 体 的 做 法 是 用 回归 系数 乘 以 输入 值 ， 再 将 结果 全 部 加 在 一 起 ， 就 得 到 了 预测 值 "。 

说 到 回归 ,一 般 都 是 指 线性 回归 (linearregression ), 所 以 本 章 里 的 回归 和 线性 回归 代表 同一 
个 意思 。 线 性 回归 意味 着 可 以 将 输入 项 分 别 乘 以 一 些 常量 ， 再 将 结果 加 起 来 得 到 输出 。 需 要 说 明 
的 是 , 存在 男 一 种 称 为 非 线性 回归 的 回归 模型 ,该 模型 不 认同 上 面 的 做 法 ,比如 认为 输出 可 能 是 
输入 的 乘积 。 这 样 ， 上 面 的 功率 计算 公式 也 可 以 写 做 : ” 

HorsePower = 0.001i5*annualSalary/hoursListeningToPublicRadio 


这 就 是 一 个 非 线性 回归 的 例子 , 但 本 章 对 此 不 做 深入 讨论 。 


回归 的 一 般 方法 , | 

(1) 收集 数据 采用 任意 方法 收集 数据 。 

(2) 准备 数据 : 回归 需要 数值 型 数据 ， 标 称 型 数据 将 被 转 成 二 值 型 数据 。 

(3) 分 析 数 据 : 绘 出 数据 的 可 视 化 二 维 图 将 有 助 于 对 数据 做 出 理解 和 分 析 ， 在 采用 缩减 法 
求 得 新 回归 系数 之 后 ， 可 以 将 新 拟 合 线 绘 在 图 上 作为 对 比 。 

(4) 训练 算法 : 找到 回归 系数 。 

(5) 测试 算法 : 使 用 R2 或 者 预测 值 和 数据 的 拟 合 度 ， 来 分 析 模 型 的 效果 。 

(6) 使 用 算法 ; 使 用 回归 ， 可 以 在 给 定 输 入 的 时 候 预 测 出 一 个 数值 ， 这 是 对 分 类 方法 的 提 
升 ， 因 为 这 样 可 以 预测 连续 型 数据 而 不 仅仅 是 离散 的 类 别 标签 。 


“回归 ”一 词 的 来 历 | 

今天 我 们 所 知道 的 回归 是 由 达尔 文 ( Charles Darwin ) 的 表 兄 弟 Francis Galton 发 明 的 。Galton 

于 1877 年 完成 了 第 一 次 回归 预测 ,目的 是 根据 上 一 代 聋 豆 种 子 (双亲 ) 的 尺寸 来 预测 下 一 代 蚁 

豆 种 子 (孩子 ) 的 尺寸 。Galton 在 大 量 对 象 上 应 用 了 回归 分 析 ， 甚 至 包括 人 的 身高 。 他 注意 到 ， 

如 果 双 亲 的 高 度 比 平均 高 度 高 ， 他 们 的 子女 也 倾向 于 比 平 均 高 度 高 ， 但 尚 不 及 双亲 。 和 孩子 的 高 

度 向 着 平均 高 度 回 退 ( 回归 )。Galton 在 多 项 研究 上 都 注意 到 这 个 现象 ， 所 以 尽管 这 个 英文 单 
词 跟 数 值 预测 没有 任何 关系 ， 但 这 种 研究 方法 仍 被 称 作 回归 @。 


应 当 怎样 从 一 大 堆 数据 里 求 出 回归 方程 呢 ? 假定 输入 数据 存放 在 矩阵 xz 中， 而 回归 系数 存放 
在 向 量 w 中 。 那 么 对 于 给 定 的 数据 x,， 预 测 结果 将 会 通过 Y,=x"iw 给 出 。 现 在 的 问题 是 ， 手 里 有 一 
些 x 和 对 应 的 y， 怎 样 才 能 找到 w 呢 ? 一 个 常用 的 方法 就 是 找 出 使 误差 最 小 的 wx。 这 里 的 误差 是 指 
预测 y 值 和 真实 y 值 之 间 的 差 值 , 使 用 该 误差 的 简单 累加 将 使 得 正 差 值 和 负 差 值 相互 抵消 , 所 以 我 
们 采用 平方 误差 。 


@ 此 处 的 回归 系数 是 一 个 向 量 ， 输 入 也 是 向 量 ， 这 些 运 算 也 就 是 求 出 二 者 的 内 积 。 一 一 译 者 注 
@) Ian Ayres, Super Crunchers (Bantam Books, 2008), 24. 
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平方 误差 可 以 写 做 ; 
六 On -六 


用 矩阵 表示 还 可 以 写 做 (y-xw)"(y-xw) 。 如 果 对 w 求 导 ， 得 到 x" (Y-xw) ， 令 其 等 于 零 ， 解 出 
| w 如 下 : 


| W=(X XX) XY 


w 上 方 的 小 标记 表示 ， 这 是 当前 可 以 估计 出 的 w 的 最 优 解 。 从 现 有 数据 上 估计 出 的 w 可 能 并 不 
是 数据 中 的 真实 w 值 ， 所 以 这 里 使 用 了 一 个 “ 帽 "符号 来 表示 它 仅 是 w 的 一 个 最 佳 估计 。 
值得 注意 的 是 ， 上 述 公式 中 包含 xx :+， 也 就 是 需要 对 矩阵 求 道 ， 因 此 这 个 方程 只 在 逆 矩 阵 存 
在 的 时 候 适用 。 然 而 ， 和 矩阵 的 逆 可 能 并 不 存在 ， 因 此 必须 要 在 代码 中 对 此 作出 判断 。 
上 述 的 最 佳 w 求 解 是 统计 学 中 的 常见 问题 ， 除 了 矩阵 方法 外 还 有 很 多 其 他 方法 可 以 解决 。 通 
过 调用 NumpPy 库 里 的 矩阵 方法 ， 我 们 可 以 仅 使 用 几 行 代码 就 完成 所 需 功能 。 该 方法 也 称 作 OLS， 
| 意思 是 “普通 最 小 二 乘法 ”( ordinary least squares )。 
下 面 看 看 实际 效果 ， 对 于 图 8-1 中 的 散 点 图 ， 下 面 来 介绍 如 何 给 出 该 数据 的 最 佳 拟 合 直 线 。 
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图 8-1 ”从 ex0.txt 得 到 的 样 例 数据 


程序 清单 8-1 可 以 完成 上 述 功能 。 打 开 文 本 编辑 器 并 创建 一 个 新 的 文件 regression. py， 添加 其 
中 的 代码 。 
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程序 清单 8-1 ”标准 回归 函数 和 数据 导入 函数、 


from numpy import * 


def loadDataSet (fileName) : 
numFeat = len(open(fileName) .readline().split('\t')) - 1 
dataMat = {]; labelMat = [] 
fr = open(fileName) 
for line in fr.readlines () : 
lineaArr =[] 
curLine = 1ine.strip() .split('\t'!) 
for i in range (numFeat): 
lineArr.append (float (curLine [i])) 
dataMat .append (lineArr) 
labelMat .append (float (curLine[-1])) 
return dataMat,1abelMat 


def standRegres (xArr,yArr): 
xMat = mat (xArr); yMat = mat (yArr).T 
xTx = xMat.T*xMat 


if linalg.det (xTx) == 0.0: 
Print "This matrix is singular, cannot do inverse' 
return 


WS = XTX.I * (xMat.T*yMat) 
return ws 


第 一 个 函数 1oadDataset () 与 第 7 章 的 同名 函数 是 一 样 的 。 该 函数 打开 一 个 用 tab 键 分 隔 的 文 
本 文件 ， 这 里 仍然 默认 文件 每 行 的 最 后 一 个 值 是 目标 值 。 第 二 个 函数 standRegres () 用 来 计算 
最 佳 拟 合 直线 。 该 函数 首先 读 人 x 和 y 并 将 它们 保存 到 矩阵 中 ;然后 计算 xx， 然 后 判断 它 的 行列 
式 是 否 为 零 ， 如 果 行 列 式 为 零 , 那么 计算 逆 矩 阵 的 时 候 将 出 现 错误 。NumPy 提 供 一 个 线性 代数 的 
库 linalg, 其 中 包含 很 多 有 用 的 函数 。 可 以 直接 调用 1inalg. det () 来 计算 行列 式 。 最 后 ,如 果 行 
列 式 非 零 ， 计 算 并 返回 w。 如 果 没 有 检查 行列 式 是 否 为 零 就 试图 计算 矩阵 的 道 ， 将 会 出 现 错误 。 
NumPy 的 线性 代数 库 还 提供 一 个 函数 来 解 未 知 和 矩阵， 如 果 使 用 该 函数 ， 那 么 代码 ws=xmx.T + 
(xMat .T*yMat ) 应 写成 ws=linalg. solve (xTx, xMat.T*yMatT)。 

下 面 看 看 实际 效果 ,使 用 1oadDataset () 将 从 数据 中 得 到 两 个 数组 ， 分 别 存放 在 x 和 y 中 。 
与 分 类 算法 中 的 类 别 标签 类 似 ， 这 里 的 y 是 目标 值 。 


>>> import regression 
>>> from numpy import * 
>>> XArr,yArr=regression.loadDataSet ('ex0 .txt'!) 


首先 看 前 两 条 数据 : 

>>> XArr[0:2] 

{[1.0, 0.067732000000000001], [1.0, 0.42781000000000002]] 
第 一 个 值 总 是 等 于 1.0， 即 x0。 我 们 假定 偏 移 量 就 是 一 个 常数 。 第 二 个 值 x1， 也 就 是 我 们 图 中 的 
横 坐 标 值 。 

现在 看 一 下 standRegres () 函数 的 执行 效果 ， 

>>> ws = regression.standRegres (xArr,yArr) 

>>> WSs 


matrix([[ 3.00774324], 
[ 1.69532264]]) 


. 
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变量 ws 存放 的 就 是 回归 系数 。 在 用 内 积 来 预测 y 的 时 候 ， 第 一 维 将 乘 以 前 面 的 常数 x0， 第 二 
维 将 乘 以 输入 变量 xt。 因 为 前 面 假定 了 x0=1， 所 以 最 终 会 得 到 y=ws [0] +ws [1]*X1。 这 里 的 y 
实际 是 预测 出 的 , 为 了 和 真实 的 y 值 区 分 开 来 , 我 们 将 它 记 为 yvHat。 下 面 使 用 新 的 ws 值 计算 yHat: 


>>> XxMat=mat (xArr) 
>>> yMat=mat (yArr) 
>>> YHat = xMat*ws 


现在 就 可 以 绘 出 数据 集散 点 图 和 最 佳 拟 合 直线 图 ， 


>>> import matplotiib.pyplot as plt 

>>> fig = plt.figure!() 

>>> ax = fig.add subplot (111) 

>>> ax.scatter (xMat [:,1i] .flatten() .A[0}, yMat.T[:,0] .flatten().A[0]) 
<matplotlib.collections.CircleCollection object at Ox04ED9D30> 


述 命 令 创建 了 图 像 并 绘 出 了 原始 的 数据 。 为 了 绘制 计算 出 的 最 佳 拟 合 直线 , 需要 绘 出 yHat 
如 果 直 线 上 的 数据 点 次 序 混 乱 ， 绘 图 时 将 会 出 现 问题 ， 所 以 首先 要 将 点 按照 升序 排列 ; 


>>> XCopy=xMat .copy {) 

>>> XCopy .sort (0) 

>>> yHat=xCopy*ws 

>>> ax.plot (xCopy{:,1],yHat) 
[<matplotliib.lines.Line2D object at Ox0343F570>] 
>>> plt.show() 


我 们 将 会 看 到 类 似 于 图 8-2 的 效果 图 。 
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图 8-2 ”ex0.txt 的 数据 集 与 它 的 最 佳 拟 合 直线 


几乎 任 一 数据 集 都 可 以 用 上 述 方法 建立 模型 ， 那 么 ， 如 何 判断 这 些 模型 的 好 坏 呢 ? 比较 一 下 图 
8-3 的 两 个 子 图 ， 如 果 在 两 个 数据 集 上 分 别 作 线性 回归 ， 将 得 到 完全 一 样 的 模型 〈 拟 合 直线 )。 显 然 
两 个 数据 是 不 一 样 的 , 那么 模型 分 别 在 二 者 上 的 效果 如 何 ? 我 们 当 如 何 比 较 这 些 效果 的 好 坏 呢 ? 有 
种 方法 可 以 计算 预测 值 yHat 序 列 和 真实 值 y 序 列 的 匹配 程度 ， 那 就 是 计算 这 两 个 序列 的 相关 系数 。 
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图 8-3 ”具有 相同 回归 系数 (0 和 2.0 ) 的 两 组 数据 。 上 图 的 相关 系数 是 0.58， 而 下 图 的 
相关 系数 是 0.99 





在 Python 中 ，NumPy 库 提供 了 相关 系数 的 计算 方法 : 可 以 通过 命令 corrcoef (yEstimate, 8 | 
yactual) 来 计算 预测 值 和 真实 值 的 相关 性 。 下 面 我 们 就 在 前 面 的 数据 集 上 做 个 实验 。 
与 之 前 一 样 ， 首 先 计 算出 y 的 预测 值 yMat: 


>>> yHat = xMat*ws 


再 来 计算 相关 系数 这 时 需要 将 yMat 转 置 ， 以 保证 两 个 向 量 都 是 行 向 量 ): 


>>> corrcoef (yHat.T, yMat) 
array([[ 1. ， 0.98647356]， 
[ 0.98647356, 1. ]] ) 


该 矩阵 包含 所 有 两 两 组 合 的 相关 系数 。 可 以 看 到 ， 对 角 线 上 的 数据 是 1.0， 因 为 yMat 和 自己 的 匹 
配 是 最 完美 的 ， 而 YHat 和 yMat 的 相关 系数 为 0.98。 
最 佳 拟 合 直线 方法 将 数据 视 为 直线 进行 建 模 ， 具 有 十 分 不 错 的 表现 。 但 是 图 8-2 的 数据 当中 
似乎 还 存在 其 他 的 潜在 模式 。 那 么 如 何 才 能 利用 这 些 模式 呢 ? 我 们 可 以 根据 数据 来 局 部 调整 预 
测 ， 下 面 就 会 介绍 这 种 方法 。 


8.2 ”局 部 加 权 线 性 回归 


线性 回归 的 一 个 问题 是 有 可 能 出 现 欠 拟 合 现象 ， 因 为 它 求 的 是 具有 最 小 均 方 误差 的 无 偏 估 
计 。 显而易见 ， 如 果 模 型 欠 拟 合 将 不 能 取得 最 好 的 预测 效果 。 所 以 有 些 方法 允许 在 估计 中 引入 一 
些 偏差 ， 从 而 降低 预测 的 均 方 误 莽 。 
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其 中 的 一 个 方法 是 局 部 加 权 线 性 回归 (Locally Weighted Linear Regression，LWLR )。 在 该 算 
法 中 ， 我 们 给 待 预测 点 附近 的 每 个 点 赋予 一 定 的 权重 ; 然后 与 8.1 节 类 似 ， 在 这 个 子 集 上 基于 最 
小 均 方差 来 进行 普通 的 回归 。 与 kNN 一 样 , 这 种 算法 每 次 预测 均 需 要 事先 选取 出 对 应 的 数据 子 集 。 
该 算法 解 出 回归 系数 w 的 形式 如 下 : 


WwW=(X WX XWy 
其 中 w 是 一 个 矩阵 ， 用 来 给 每 个 数据 点 赋予 权重 。 


LWLR 使 用 “ 核 ”( 与 支持 向 量 机 中 的 核 类 似 ) 来 对 附近 的 点 赋予 更 高 的 权重 ?。 核 的 类 型 可 
以 自由 选择 ， 最 常用 的 核 就 是 高 斯 核 ， 高 斯 核对 应 的 权重 如 下 ; 


fb- 
Ww(i,i) = exp 7 


这 样 就 构建 了 一 个 只 含 对 角 元 素 的 权重 矩阵 w， 并 且 点 x 与 x(i) 越 近 ， w(i,i) 将 会 越 大 。 上 
述 公式 包含 一 个 需要 用 户 指定 的 参数 k, 它 决定 了 对 附近 的 点 赋予 多 大 的 权重 ， 这 也 是 使 用 LWLR 
时 唯一 需要 考虑 的 参数 ， 在 图 8-4 中 可 以 看 到 参数 k 与 权重 的 关系 。 
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图 8-4 每 个 点 的 权重 图 ( 假定 我 们 正 预测 的 点 是 x = 0.5) ， 最 上 面 的 图 是 原始 数据 
集 ， 第 二 个 图 显示 了 当 k = 0.5 时 ， 大 部 分 的 数据 都 用 于 训练 回归 模型 ; 而 最 
下 面 的 图 显示 当 k = 0.01 时 ， 仅 有 很 少 的 局 部 点 被 用 于 训练 回归 模型 


下 面 看 看 模型 的 效果 ， 打 开 文本 编辑 器 ， 将 程序 清单 8-2 的 代码 添加 到 文件 regression.py 中 。 





外 读者 要 注意 区 分 这 里 的 权重 Wa 和 回归 系数 w， 与 kNN 一 样 ， 该 加 权 模型 认为 样本 点 距离 越 近 ， 越 可 能 符合 同一 个 
线性 模型 。 一 _ 译 首 注 
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程序 清单 8-2 局 部 加 权 线 性 回归 函数 
def lwlr (testPoint,xArr, yArr,k=1.0): 
XMat = mat (xArr); yMat = mat (yArr)}.T 
m = shape (xMat) [0] 
weights = mat (eye( (m))) 
for j in range{(m): 
diffMat = testpoint - xMat[j,:] 
weights[j,j] = exp(diffMat*diffMat.T/{(-2.0*k**2)) 
XTX = xMat.T * (weights * xMat) 


9 创建 对 角 矩 阵 


人 权重 值 大 小 以 指数 级 衰减 


if linalg.det (xTx) == 0.0: 
print "This matrix is singular, cannot do inverse' 
return 


WS = XTX.I * (xMat.T * (weights * yMat)) 
return testPpoint * ws 


def lwlrTest (testArr,xArr,yArr,k=1.0): 
m = shape (testArr) [0] 
yHat = zeros (m) 
for i in range (m): 
yHat [il = jwlr(testArr{i] ,xArr,yArr,k) 
return yHat 


程序 清单 8-2 中 代码 的 作用 是 ， 给 定 x 空 间 中 的 任意 一 点 ， 计 算出 对 应 的 预测 值 ygat 。 函 数 
lwlz() 的 开头 与 程序 清单 8-1 类 似 ， 读 人 数据 并 创建 所 需 矩 阵 ， 之 后 创建 对 角 权 重 矩 阵 
weights@@。 权 重 和 矩阵 是 一 个 方 阵 ， 阶 数 等 于 样本 点 个 数 。 也 就 是 说 ， 该 矩阵 为 每 个 样本 点 初始 
化 了 一 个 权重 。 接 着 , 算法 将 遍历 数据 集 ， 计算 每 个 样本 点 对 应 的 权重 值 ， 随 着 样本 点 与 待 预 测 
点 距离 的 递增 ， 权 重 将 以 指数 级 衰减 @。 输 入 参数 k 控 制 衰减 的 速度 。 与 之 前 的 函数 stand- 
Regress () 一 样 ， 在 权重 矩阵 计算 完毕 后 ， 就 可 以 得 到 对 回归 系数 ws 的 一 个 估计 。 

程序 清单 8-2 中 的 另 一 个 函数 是 lwlrTest () ， 用 于 为 数据 集中 每 个 点 调用 1wlr () ， 这 有 助 
于 求解 k 的 大 小 。 

下 面 看 看 实际 效果 ， 将 程序 清单 8-2 的 代码 加 入 到 regression.py 中 并 保存 ， 然 后 在 Python 提 示 
符 下 输入 如 下 命令 ;: 


>>> reload (regression) 
<module 'regression' from 'regression.py'> 


如 果 需 要 重新 载 人 数据 集 ， 则 输入 
>>> XArr,yArr=regression.loadDataSet (:ex0 .txt') 


可 以 对 单 点 进行 估计 : 
>>> yArr [0] 
3.1765129999999999 
>>> regression.1wlr (xArr[0] ,xArr,yArr,1.0) 
matrix{[[ 3.12204471]]) 
>>> regression.1lwlr (xArr[0],xArr,yArr,0.001) 
matrix([[ 3.20175729]1]) 


为 了 得 到 数据 集 里 所 有 点 的 估计 ， 可 以 调用 1wlrmest () 函数 ， 


>>> yHat = regression.lwlrTest (xArr, xArr, yArr,0.003) 
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下 面 绘 出 这 些 估计 值 和 原始 值 ， 看 看 yHat 的 拟 合 效果 。 所 用 的 绘图 函数 需要 将 数据 点 按 序 
排列 ， 首 先 对 xarz 排 序 : 


xMat=mat (xArr) 
>>> srtInd = xMat[:,1] .argsort (0) 
>>> XxXSort=xMat [srtInd] {:,0,:] 


然后 用 Matplotlib 绘 图 : 


>>> import matplotlib.pyplot as plt 

>>> fig = plt.figure() 

>>> ax = fig.add subplot (111) 

>>> ax.plot (xSort[:,1], yHat [srtind]) 

[<matplotlib.1lines. Line2D object at 0x03639550>] 

>>> ax.scatter (xMat [:,1] .flatten() .A[0], mat (yArr).T. flatten().A[0] ,8s 
c='red') 

<matplotlib.collections.PathCollection object at 0x03859110> 

>>> plt.show() 


可 以 观察 到 如 图 8-5 所 示 的 效果 。 图 8-5 给 出 了 # 在 三 种 不 同 取 值 下 的 结果 图 。 当 k= 1.0 时 权重 
很 大 ， 如 同 将 所 有 的 数据 视 为 等 权重 ， 得 出 的 最 佳 拟 合 直 线 与 标准 的 回归 一 致 。 使 用 k = 0.01 得 
到 了 非常 好 的 效果 ， 抓 住 了 数据 的 潜在 模式 。 下 图 使 用 k=0.003 纳 入 了 太 多 的 噪声 点 ， 拟 合 的 直 
线 与 数据 点 过 于 贴近 。 所 以 ， 图 8-5 中 的 最 下 图 是 过 拟 合 的 一 个 例子 ， 而 最 上 图 则 是 欠 拟 合 的 一 
个 例子 。 下 一 节 将 对 过 拟 合 和 欠 拟 合 进行 量化 分 析 。 
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图 8-5 ”使 用 3 种 不 同 平滑 值 绘 出 的 局 部 加 权 线 性 回归 结果 。 上 图 中 的 平滑 参数 k=1.0， 
中 图 上 = 0.01， 下 图 k= 0.003。 可 以 看 到 ,k= 1.0 时 的 模型 效果 与 最 小 二 乘法 差 
不 多 , k= 0.01 时 该 模型 可 以 挖 出 数据 的 潜在 规律 ， 而 k= 0.003 时 则 考虑 了 太 多 
的 噪声 ， 进 而 导致 了 过 拟 合 现象 
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局 部 加 权 线 性 回归 也 存在 一 个 问题 ， 即 增加 了 计算 量 ， 因 为 它 对 每 个 点 做 预测 时 都 必须 使 用 整 
个 数据 集 。 从 图 8-5 可 以 看 出 ，k=0.01 时 可 以 得 到 很 好 的 估计 ,但 是 同时 看 一 下 图 84 中 = 0.01 的 情 
况 ， 就 会 发 现 大 多 数据 点 的 权重 都 接近 零 。 如 果 避 免 这 些 计算 将 可 以 减少 程序 运行 时 间 ， 从 而 缓解 
因 计 算 量 增加 带 来 的 问题 。 

到 此 为 止 ， 我 们 已 经 介绍 了 找 出 最 佳 拟 合 直线 的 两 种 方法 ， 下 面 用 这 些 技术 来 预测 鲍鱼 的 
年 龄 。 
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接 下 来 ， 我 们 将 回归 用 于 真实 数据 。 在 data 目 录 下 有 一 份 来 自 UCI 数 据 集合 的 数据 ， 记 录 了 
鲍鱼 (一 种 介壳 类 水 生动 物 ) 的 年 龄 。 鲍 鱼 年 龄 可 以 从 鲍鱼 壳 的 层 数 推算 得 到 。 
在 regression.py 中 加 入 下 列 代 码 : 


def SSErrOr (YATL,，YHatRArz) : 
return ((yArr-yHatArr)**2) .sum() 


>>> abxX,abY=regression.loadDataSet ('abalone.txt') 

>>> yHat01=regression.lwlrTest (abX[0:99] ,abxX[0:99] ,abY [0:99],0.1) 
>>> yHatl=regression,.lwlrTest (abX[0:99] ,abX[0:99] ,abY {0:99],1) 
>>> yHat10=regression.lwlrTest (abX[0:99] ,abx[0:99] ,abY[0:99] ,10) 


为 了 分 析 预 测 误差 的 大 小 ， 可 以 用 函数 xssEgrror () 计 算出 这 一 指标 ; 
>>> regression.rssError (abY [0:99] ,yHat01.T) 

56.842594430533545 

>>> regression.rssError(abY[0:99] ,yHat1.T) 

429.89056187006685 

>>> regression.rssError(aby [0:99] ,yHat10.T) 

549.11817088257692 


可 以 看 到 , 使 用 较 小 的 核 将 得 到 较 低 的 误差 。 那 么 ,为 什么 不 在 所 有 数据 集 上 都 使 用 最 小 的 核 呢 ? 


这 是 因为 使 用 最 小 的 核 将 造成 过 拟 合 , 对 新 数据 不 一 定 能 达到 最 好 的 预测 效果 。 下 面 就 来 看 看 它 
们 在 新 数据 上 的 表现 ， 


>>> yHat01l=regression.lwlrTest (abxX{100:199] ,abX[0:99] ,abY[0:99] ,0.1) 
>>> regression.rssError (abY [100:199],yHato01.T) 

25619.926899338669 

>>> yHatl=regression.lwlrTest (abX[100:199} ,abX[0:99] ,abY[0:99],1) 
>>> regression.rssError (abY[100:199] ,yHat1.T) 

573.5261441895808 

>>> yHatl0=regression.lwlrTest (abX [100:199] ,abX{[0:99] ,abY[0:99] ,10) 
>>> regression.rssError (abY [100:199],yHat10.T) 

517.57119053830979 


从 上 述 结果 可 以 看 到 ,在 上 面 的 三 个 参数 中 , 核 大 小 等 于 10 时 的 测试 误差 最 小 , 但 它 在 训练 
集 上 的 误差 却 是 最 大 的 。 接 下 来 再 来 和 简单 的 线性 回归 做 个 比较 : 


>>> WS = regression.standRegres (abX [0:99] ,abY[{0:99]) 
>>> YHat=mat (abX [100:199] )*ws 

>>> regression.rssError(abY[100:199] ,yHat.T.A) 
518.63631532450131 
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简单 线性 回归 达到 了 与 局 部 加 权 线 性 回归 类 似 的 效果 。 这 也 表明 一 点 ， 必须 在 未 知 数据 上 。 
较 效果 才能 选取 到 最 佳 模 型 。 那 么 最 佳 的 核 大 小 是 10 吗 ? 或 许 是 ， 但 如 果 想 得 到 更 好 的 效果 ， 应 
该 用 10 个 不 同 的 样本 集 做 10 次 测试 来 比较 结果 。 | 
te re 
局 部 加 权 线 性 回归 的 问题 在 于 , 每 次 必须 在 整个 数据 集 上 运行 。 也 就 是 说 为 了 做 出 预测 ， 必须 保 
存 所 有 的 训练 数据 。 下 面 将 介绍 另 一 种 提高 预测 精度 的 方法 ， 并 分 析 它 的 优势 所 在 。 


8.4 ”缩减 系数 来 “理解 ”数据 


如 果 数 据 的 特征 比 样本 点 还 多 应 该 怎么 办 ? 是 看 还 可 以 使 用 敌人 性 国明 和 公有 的 二 六 条 各 人 
测 ? 答案 是 否定 的 ， 即 不 能 再 使 用 前 面 介绍 的 方法 。 这 是 因为 在 计算 (XX) 
如 果 特 征 比 样本 点 还 多 (n > mh)， 也 就 是 说 输入 数据 的 矩阵 x 不 是 满 秩 矩阵 。 非 满 秩 矩 

玉 迹 时 会 由 现 问 题 。 

i 统计 学 家 引入 了 岭 回归 (ridge regression ) ee 
的 第 一 种 缩减 方法 。 接 着 是 lasso 法 , 该 方法 效果 很 好 但 计算 复杂 。 i 介绍 了 第 二 种 缩减 方 
法 ， 称 为 前 向 逐步 回归 ， 可 以 得 到 与 lasso 差 不 多 的 效果 ， 且 更 容易 实现 。 


8.4.1 内 回归 


i 岭 回 归 就 是 在 矩阵 xx 上 加 一 个 Mr 从 而 使 得 矩阵 非 奇异 ， 进而 能 对 xx + 7 求 逆 。 
nade 对 角 线 上 元 素 全 为 1!， 其 他 元 素 全 为 0。 而 是 一 个 用 户 定义 的 
数值 ， 后 面 会 做 介绍 。 在 这 种 情况 下 ， 回 归 系 数 的 计算 公式 将 变 成 : 

W=(XX+AD" XY | 
岭 回归 最 先 用 来 处 理 特征 数 多 于 样本 数 的 情况 ,现在 也 用 于 在 估计 中 加 入 偏差 ， es 
好 的 估计 。 这 里 通过 引入 来 限制 了 所 有 w 之 和 ， 通 过 引入 该 惩罚 项 ,能 够 减少 不 重要 的 参数 ， 这 
个 技术 在 统计 学 中 也 叫做 缩减 ( shrinkage )。 
叭 回归 使 用 了 单位 猎 隆 科 以 常量 \， 我 们 观 守 其 中 的 单位 算 阵 J， 可 以 看 到 值 1 人 夫人 对 
角 线 , 其余 元 素 全 是 0。 形象 地 ,在 0 构成 的 平面 上 有 一 条 1 组 成 的 “ 叭 "这 就 是 岭 回归 中 的 “内 
的 由 来 。 


缩减 方法 可 以 去 掉 不 重要 的 参数 ， 因 此 能 更 好 地 理解 数据 。 此 外 ， 与 简单 的 线性 回归 相 比 ， 
缩减 法 能 取得 更 好 的 预测 效果 。 本 ， 

与 前 几 章 里 训练 其 他 参数 所 用 的 方法 类 似 , 这 里 通过 预测 误差 最 小 化 得 到 和 : 数据 获取 之 后 ， 
首先 抽 一 部 分 数据 用 于 测试 ， 剩 余 的 作为 训练 集 用 于 训练 参数 w。 训练 完毕 后 在 测试 集 上 测试 巴 
测 性 能 。 通 过 选取 不 同 的 ^ 来 重复 上 述 测试 过 程 ， 最 终 得 到 一 个 使 预测 误差 最 小 的 X。 
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下 面 看 看 实际 效果 ， 打 开 regression.py 文 件 并 添加 程序 清单 8-3 的 代码 。 
程序 清单 8-3 ”上 岭 回归 


def ridgeRegres (xMat,yMat, 1am=0 .2). 
XIX = xMat.T*xMat 
denom = xTx + eye (shape (xMat) [1]) *lam 


if linalg.det (denom) == 0.0: 
print "This matrix is singular, cannot do invetrsen 
return 


WS = Genom.I * (xMat .T*yMat)} 
return ws 


def ridgeTest (xArr,yArr): 

xMat = mat (xArr); yMat=mat (yArr) .T 

YMean = mean(yMat, 0) 

yMat = yMat - yMean 

xMeans = mean (xMat,0) 

xVar = var (xMat,0) 

xMat = (xMat - xMeans) /xVar 

numTestpts = 30 

wMat = zeros ( (numTestPpts, shape (xMat) [1] )) 

for i in range (numTestpts): 
WS = ridgeRegres (xMat ,yMat ,exp (i-10)) 
wMat [i, :]=ws.T 

return wMat 


. 数据 标准 化 


程序 清单 83 中 的 代码 包含 了 两 个 函数 ， 函 数 ridgeRegres () 用 于 计算 回归 系数 ， 而 函数 a | 


ridgeTest () 用 于 在 一 组 \ 上 测试 结果 。 

第 一 个 函数 =iageRegres () 实现 了 给 定 lambda 下 的 岭 回归 求解 。 如 果 没 指定 lambda， 则 默 
认为 0.2。 由 于 lambda 是 Python 保 留 的 关键 字 ， 因 此 程序 中 使 用 了 1am 来 代替 。 该 函数 首先 构建 矩 
阵 xXX， 然 后 用 lam 乘 以 单位 矩阵 ( 可 调用 Numpy 库 中 的 方法 eye () 来 生成 外 在 普通 回归 方法 可 
能 会 产生 错误 时 ,上 岭 回 归 仍 可 以 正常 工作 。 那么 是 不 是 就 不 再 需要 检查 行列 式 是 否 为 零 ， 对 吗 ? 
不 完全 对 ， 如 果 lambda 设 定 为 0 的 时 候 一 样 可 能 会 产生 错误 ， 所 以 这 里 仍 需要 做 一 个 检查 。 最 后 ， 
如 果 矩 阵 非 奇异 就 计算 回归 系数 并 返回 。 

为 了 使 用 岭 回归 和 缩减 技术 ， 首 先 需 要 对 特征 做 标准 化 处 理 。 回 忆 一 下 ， 第 2 章 已 经 用 过 标 
准 化 处 理 技术 , 使 每 维特 征 具 有 相同 的 重要 性 (不 考虑 特征 代表 什么 小 程序 清单 8-3 中 的 第 二 个 
函数 riqgeTest () 就 展示 了 数据 标准 化 的 过 程 。 具体 的 做 法 是 所 有 特征 都 减 去 各 自 的 均值 并 除 
以 方差 @。 

处 理 完成 后 就 可 以 在 30 个 不 同 的 lambda 下 调用 ridgeRegres () 末 数 。 注 意 ， 这 里 的 lambda 
应 以 指数 级 变化 , 这 样 可 以 看 出 lambda 在 取 非 常 小 的 值 时 和 取 非 党 大 的 值 时 分 别 对 结果 造成 的 影 
响 。 最 后 将 所 有 的 回归 系数 输出 到 一 个 矩阵 并 返回 。 

下 面 看 一 下 鲍鱼 数据 集 上 的 运行 结果 。 

>>> reload (regression) 


>>> abX,abY=regression.1loadDataSet ('abalone. txt') 
>>> ridgeWeights=regression.ridgeTest (abx,abY) 
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这 样 就 得 到 了 30 个 不 同 lambda 所 对 应 的 回归 系数 。 为 了 看 到 缩减 的 效果 ， 在 Python 提示 符 下 
输入 如 下 代码 ; 


>>> import matplotlib.pYyYP1ot as plt 
| >>> fig = plt.figure!() 
| >>> ax = fig.add subpliot (111) 

>>> ax.plot (ridgeWeights) 

>>> plt.show() 


运行 之 后 应 该 看 到 一 个 类 似 图 8-6 的 结果 图 ,该 图 绘 出 了 回归 系数 与 1og (4) 的 关系 ,在 最 左边 ， 
即 4 最 小 时 ， 可 以 得 到 所 有 系数 的 原始 值 (与 线性 回归 一 致 ; 而 在 右边 ， 系 数 全 部 缩减 成 0; 在 中 
| 间 部 分 的 某 值 将 可 以 取得 最 好 的 预测 效果 。 为 了 定量 地 找到 最 佳 参数 值 ， 还 需要 进行 交叉 验证 。 
另外 ， 要 判断 哪些 变量 对 结果 预测 最 具有 影响 力 ， 在 图 8-6 中 观察 它 们 对 应 的 系数 大 小 就 可 以 。 
| 
| 
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图 8-6” 岭 回归 的 回归 系数 变化 图 。^ 非 常 小 时 ， 系 数 与 普通 回归 一 样 。 而 非常 大 时 ， 
所 有 回归 系数 缩减 为 0。 可 以 在 中 间 某 处 找到 使 得 预测 的 结果 最 好 的 ^ 值 


还 有 一 些 其 他 缩减 方法 ， 如 lasso、LAR、PCA 回 归 人 以 及 子 集 选择 等 。 与 岭 回 归 一 样 ， 这 些 
方法 不 仅 可 以 提高 预测 精确 率 ， 而 且 可 以 解释 回归 系数 。 下 面 将 对 lasso 方 法 稍 作 介绍 。 
8.4.2 lasso 

不 难 证 明 ， 在 增加 如 下 约束 时 ， 普 通 的 最 小 二 乘法 回归 会 得 到 与 岭 回 归 的 一 样 的 公式 : 


> < 





D Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning: Data Mining, Inference, and 
Prediction, 2nd ed. (Springer, 2009). 
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上 式 限 定 了 所 有 回归 系数 的 平方 和 不 能 大 于 。 使 用 普通 的 最 小 二 乘法 回归 在 当 两 个 或 更 多 
的 特征 相关 时 ， 可 能 会 得 出 一 个 很 大 的 正 系数 和 一 个 很 大 的 负 系 数 。 和 
在 ， 使 用 岭 回 归 可 以 避免 这 个 问题 。 

与 岭 回归 类 似 ， 另 一 个 缩减 方法 lasso 也 对 回归 系数 做 了 限定 ， 对 应 的 约束 条 件 如 和 下， 


> mi|<4 
唯一 的 不 同 点 在 于 ， 这 个 约束 条 件 使 用 绝对 值 取代 了 平方 和 。 虽 然 约 柬 形式 只 是 稍 作 变 化 ， 
结果 却 大 相 径 庭 : 在 足够 小 的 时 候 ， 一 些 系数 会 因此 被 迫 缩减 到 0， 这 个 特性 可 以 帮助 我 们 更 好 
地 理解 数据 。 这 两 个 约束 条 件 在 公式 上 看 起 来 相差 无 几 , 但 细微 的 变化 却 极 大 地 增加 了 计算 复杂 
度 (为 了 在 这 个 新 的 约束 条 件 下 解 出 回归 系数 ， 需 要 使 用 二 次 规划 算法 )。 下 面 将 介绍 一 个 更 为 
简单 的 方法 来 得 到 结果 ， 该 方法 叫做 前 向 逐步 回归 。 


8.4.3 ”前 向 逐步 回归 


前 向 逐步 回归 算法 可 以 得 到 与 lasso 差 不 多 的 效果 ,但 更 加 简单 。 它 属于 一 种 贪心 算法 ， 即 每 
一 步 都 尽 可 能 减少 误差 。 一 开始 ， 所 有 的 权重 都 设 为 1， 然 后 每 一 步 所 做 的 决策 是 对 某 个 权重 增 
加 或 减少 一 个 很 小 的 值 。 

该 算法 的 伪 代 码 如 下 所 示 : 


数据 标准 化 ， 使 其 分 布 满足 0 均值 和 单位 方差 
在 每 轮 和 迭代 过 程 中 ， 
设置 当前 最 小 误差 lowestError 为 正 无 穷 
对 每 个 特征 : 
增 大 或 缩小 ; 
改变 一 个 系数 得 到 一 个 新 的 W 
计算 新 W 下 的 误差 
如 果 误 差 Error 小 于 当前 最 小 误差 lowestError; 设置 Wbest 等 于 当前 的 W 
将 W 设 置 为 新 的 Wbest 
下 面 看 看 实际 效果 ， 打 开 regression.py 文 件 并 加 入 下 列 程序 清单 中 的 代码 。 


程序 清单 8-4 ”前 向 逐步 线性 回归 
def stageWise (xArr,yArr,eps=0.01,numIt=100): 
xMat = mat (xArr); yMat=mat (yArr).T 
yMean = mean(yMat, 0) 
YMat = yMat - yMean 
xMat = regularize (xMat) 
m,n=shape (xMat) 
returnMat = zeros( (numIt,n)) 
ws = Zeros{((n,1)); wsTest = ws.copy(); wsMax = ws.copy() 
for i in range {numIt): 
print ws.T 








- 
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lowestError = inf; 
for j in zange (n) :; 
for sign in [-1,1]: 
wsTest = ws.copy () 
wsTest [j] += eps*sign 
yTest = xMat*wsTest 
rssE = rssError (yMat .A,yTest .A) 
if rssE < lowestError: 
lowestError = rssE 
wsMax = wsTest 
ws = WSMax .copy () 
returnMat [i,:]=ws.T 
return returnMat 


程序 清单 8-4 中 的 函数 stagewise () 是 一 个 逐步 线性 回归 算法 的 实现 ， 它 与 lasso 做 法 相近 但 
计算 简单 。 该 函数 的 输入 包括 : 输入 数据 xArr 和 预测 变量 yArr。 此 外 还 有 两 个 参数 ; 一 个 是 eps， 
表示 每 次 兴 代 需要 调整 的 步 长 ， 另 一 个 是 numIt， 表 示 和 迭代 次 数 。 

函数 首先 将 输入 数据 转换 并 存 入 矩阵 中 ,然后 把 特征 按照 均值 为 0 方差 为 1 进行 标准 化 处 理 。 在 
这 之 后 创建 了 一 个 向 量 ws 来 保存 w 的 值 ， 并且 为 了 实现 贪心 算法 建立 了 ws 的 两 份 副 本 。 接 下 来 的 优 
化 过 程 需要 迭代 numIt 次 ， 并 且 在 每 次 迭代 时 都 打印 出 w 向 量 ， 用 于 分 析 算 法 执行 的 过 程 和 效果 。 

贪心 算法 在 所 有 特征 上 运行 两 次 for 循 环 ， 分 别 计算 增加 或 减少 该 特征 对 误差 的 影响 。 这 里 
使 用 的 是 平方 误差 ， 通 过 之 前 的 函数 rssError () 得 到 。 该 误差 初始 值 设 为 正 无 穷 ， 经 过 与 所 有 
的 误差 比较 后 取 最 小 的 误差 。 整 个 过 程 循环 迭代 进行 。 

下 面 看 一 下 实际 效果 ， 在 tegression,py 里 输入 程序 清单 8-4 的 代码 并 保存 ， 然 后 在 Python 提示 
符 下 输入 如 下 命令 : 

>>> reload (regression) 

<module 'regression' from 'regression.pyc'> 

>>> XArr,yArr=regression.loadDataSet ('abalone .txt') 


>>> regression.stageWise (xArr,yArr,0.01,200) 
[[ 0. 0. 0. 0, 0. 0. 0. 0.]] 


[[ 0. 0 ， 0 . 0.01 0. 0 . 0 . 0. |]] 
[{ 0. 0. 0. 0.02 0. 0 . 0 ， 0. ]] 
[{ 0.04 0. 0.09 0.03 0.31 -0.64 0. 0.36]] 
[[ 0.05 0. 0.09 0.03 0.31 -0.64 0. 0.36] ] 
[[ 0.04 0， 0.09 0.03 0.31 -0.64 0. 0.36]] 


上 述 结果 中 值得 注意 的 是 wl 和 w6 都 是 90， 这 表明 它们 不 对 目标 值 造 成 任何 影响 ,也 就 是 说 这 
些 特征 很 可 能 是 不 需要 的 。 另 外 ， 在 参数 eps 设 置 为 0.01 的 情况 下 ， 一 段 时 间 后 系数 就 已 经 饱和 
并 在 特定 值 之 间 来 回 震荡 ， 这 是 因为 步 长 太 大 的 缘故 。 这 里 会 看 到 ， 第 一 个 权重 在 0.04 和 0.05 之 
间 来 回 震荡 。 

下 面试 着 用 更 小 的 步 长 和 更 多 的 步 数 : 

>>> regression.stageWise (xArr,yArr,0.001,5000) 

[[ 0. 0. 0. 0. 0. 0. 0. 0.j] 

[5 0. 0 . 0 . 0.001 0. 0 . 0 . 0 . ]] 

[[ 0. i 0 . 0 . 0.002 0. 0 . 0 . 92 ]] 
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[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

[[ 0.043 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

接 下 来 把 这 些 结果 与 最 小 二 乘法 进行 比较 ， 后 者 的 结果 可 以 通过 如 下 代码 获得 : 

>>> xMat=mat (xArr) 

>>> yMat=mat (yArr) .T 

>>> xMat=regression.regularize (xMat) 

>>> YM = mean (yMat ,0) 

>>> yMat = yMat - yM 

>>> weights=regression.standRegres (xMat,yMat .T) 

>>> weights.T 

matrix([[ 0.0430442 ， -0.02274163, 0.13214087, 0.02075182, 2.22403814, 
-0.99895312, -0.11725427, 0.16622915]1]) 


可 以 看 到 在 5000 次 迭代 以 后 ， 逐 步 线 性 回归 算法 与 常规 的 最 小 二 乘法 效果 类 做。 使 用 0.005 
的 epsilon 值 并 经 过 1000 次 迭代 后 的 结果 参见 图 8-7。 


1.5 
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图 8-7 ”鲍鱼 数据 集 上 执行 逐步 线性 回归 法 得 到 的 系数 与 迭代 次 数 间 的 关系 。 逐 步 线 性 
回归 得 到 了 与 lasso 相 似 的 结果 ， 但 计算 起 来 更 加 简便 


逐步 线性 回归 算法 的 实际 好 处 并 不 在 于 能 绘 出 图 8-7 这 样 漂亮 的 图 , 主要 的 优点 在 于 它 可 以 帮助 
人 们 理解 现 有 的 模型 并 做 出 改进 。 当 构建 了 一 个 模型 后 ， 可 以 运行 该 算法 找 出 重要 的 特征 ， 这 样 就 
有 可 能 及 时 停止 对 那些 不 重要 特征 的 收集 。 最后, 如 果 用 于 测试 , 该 算法 每 100 次 迭代 后 就 可 以 构建 
出 一 个 模型 ， 可 以 使 用 类 似 于 10 折 交叉 验证 的 方法 比较 这 些 模型 ， 最 终 选 择 使 误差 最 小 的 模型 。 

当 应 用 缩减 方法 ( 如 逐步 线性 回归 或 岭 回归 ) 时 ,模型 也 就 增加 了 偏差 (bias ), 与 此 同时 却 
减 小 了 模型 的 方差 。 下 一 节 将 揭示 这 些 概 念 之 间 的 关系 并 分 析 它 们 对 结果 的 影响 。 
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8.5 权衡 偏差 与 方差 


任何 时 候 , 一 旦 发 现 模型 和 测量 值 之 间 存 在 差异 , 就 说 出 现 了 误差 。 当 考虑 模型 中 的 “噪声 ” 
或 者 说 误差 时 ,必须 考虑 其 来 源 。 你 可 能 会 对 复杂 的 过 程 进行 简化 , 这 将 导致 在 模型 和 测量 值 之 
间 出 现 “ 噪 声 ” 或 误差 ， 若 无 法 理解 数据 的 真实 生成 过 程 ， 也 会 导致 差异 的 发 生 。 另 外 ,测量 过 
程 本 身 也 可 能 产生 “噪声 ”或 者 问题 。 下 面 举 一 个 例子 ，8.1 节 和 8.2 节 处 理 过 一 个 从 文件 导 人 的 
二 维 数据 。 实 话 来 讲 ， 这 个 数据 是 我 自己 造 出 来 的 ， 其 具体 的 生成 公式 如 下 : 

Y= 3.0+ 1.7xX+ 0.lsin(30x)+0.06N(0,1), 
其 中 N(0,1) 是 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 。 在 8.1 节 中 ， 我 们 尝试 过 仅 用 一 条 直线 来 拟 合 
上 述 数据 。 不 难 想到 ， 直 线 所 能 得 到 的 最 佳 拟 合 应 该 是 3 .0+1 .7x 这 一 部 分 。 这 样 的 话 ， 误 差 部 
分 就 是 0.1sin(30x)+0.06N(0,1)。 在 8.2 节 和 8.3 节 ,我 们 使 用 了 局 部 加 权 线 性 回归 来 试图 捕捉 
数据 背后 的 结构 。 该 结构 拟 合 起 来 有 一 定 的 难度 ,因此 我 们 测试 了 多 组 不 同 的 局 部 权重 来 找到 具 
有 最 小 测试 误差 的 解 。 

图 8-8 给 出 了 训练 误差 和 测试 误差 的 曲线 图 ， 上 面 的 曲线 就 是 测试 误差 ， 下 面 的 曲线 是 训练 
误差 。 根 据 8.3 节 的 实验 我 们 知道 ， 如 果 降 低 核 的 大 小 ， 那 么 训练 误差 将 变 小 。 从 图 8-8 来 看 ， 从 
左 到 右 就 表示 了 核 逐渐 减 小 的 过 程 。 





低 方 差 高 偏差 高 方差 低 偏差 





模型 复杂 度 
低 高 
图 8-8 ”偏差 方差 折 中 与 测试 误差 及 训练 误差 的 关系 。 上 面 的 曲线 就 是 测试 误差 ， 在 中 
间 部 分 最 低 。 为 了 做 出 最 好 的 预测 ， 我 们 应 该 调整 模型 复杂 度 来 达到 测试 误差 
的 最 小 值 


一 般 认为 ， 上 述 两 种 误差 由 三 个 部 分 组 成 :， 偏差、 测量 误 差 和 随机 噪声 。 在 8.2 节 和 8.3 节 ， 
我 们 通过 引入 了 三 个 越 来 越 小 的 核 来 不 断 增 大 模型 的 方差 。 
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8.4 节 介绍 了 缩减 法 ， 可 以 将 一 些 系数 缩减 成 很 小 的 值 或 直接 缩减 为 0， 这 是 一 个 增 大 模型 偏 
差 的 例子 。 通 过 把 一 些 特 征 的 回归 系数 缩减 到 0， 同 时 也 就 减少 了 模型 的 复杂 度 。 例 子 中 有 8 个 特 
征 ， 消 除 其 中 两 个 后 木 仅 使 模型 更 易 理 解 ， 同 时 还 降低 了 预测 误差 。 图 8-8 的 左 侧 是 参数 缩减 过 
于 严厉 的 结果 ， 而 右 侧 是 无 缩减 的 效果 。 

方差 是 可 以 度量 的 。 如 果 从 鲍鱼 数据 中 取 一 个 随机 样本 集 ( 例如 取 其 中 100 个 数据 ) 并 用 线 
性 模型 拟 合 ,将 会 得 到 一 组 回归 系数 。 同 理 , 再 取出 另 一 组 随机 样本 集 并 拟 合 ,将 会 得 到 另 一 组 
回归 系数 。 这 些 系 数 间 的 差异 大 小 也 就 是 模型 方差 大 小 的 反映 "。 上 述 偏差 与 方差 折 中 的 概念 
机 器 学 习 十 分 流行 并 且 反复 出 现 。 

下 一 节 将 介绍 上 述 理论 的 应 用 : 首先 从 拍卖 站 点 抽取 一 些 数 据 , 再 使 用 一 些 回归 法 进行 实验 
来 为 数据 找到 最 佳 的 岭 回 归 模型 。 这 样 就 可 以 通过 实际 效果 来 看 看 偏差 和 方差 间 的 折 中 效果 。 


8.6 示例: 预测 乐高 玩具 套装 的 价格 


你 对 乐高 (LEGO ) 品牌 的 玩具 了 解 吗 ? 乐高 公司 生产 拼装 类 玩具 ， 由 很 多 大 小 不 同 的 塑料 
插 块 组 成 。 这 些 塑料 插 块 的 设计 非常 出 色 , 不 需要 任何 粘 合 剂 就 可 以 随意 拼装 起 来 。 除了 简单 玩 
具 之 外 ， 乐高 玩具 在 一 些 成 人 中 也 很 流行 。 一 般 来 说 , 这 些 插 块 都 成 套 出 售 ,， 它们 可 以 拼装 成 很 
多 不 同 的 东西 ， 如 船 、 城 保 、 一 些 著名 建筑 ,等 等 。 乐 高 公司 每 个 套装 包含 的 部 件数 目 从 10 件 到 
5000 件 不 等 。 

一 种 乐高 套装 基本 上 在 几 年 后 就 会 停产 ,但 乐高 的 收藏 者 之 间 仍 会 在 停产 后 彼此 交易 。 
Dangler 喜 欢 为 乐高 套装 估价 ， 下 面 将 用 本 章 的 回归 技术 帮助 他 建立 一 个 预测 模型 。 


归并 并 第 乐高 关闭 的 价格 | 
(1) 收集 数据 ;用 Google Shopping 的 API 收 集 数据 。 

(2) 准备 数据 : 从 返回 的 JSON 数 据 中 抽取 价格 。 

(3) 分 析 数 据 : 可 视 化 并 观察 数据 。 

(4) 训练 算法 : 构建 不 同 的 模型 ， 采 用 未 步 线性 回归 和 直接 的 线性 回归 模型 。 

(5) 测试 算法 ; 使 用 交叉 验证 来 测试 不 同 的 模型 ， 分 析 哪 个 效果 最 好 。 

(6) 使 用 算法 : 这 次 练习 的 目标 就 是 生成 数据 模型 。 


在 这 个 例子 中 , 我 们 将 从 不 同 的 数据 集 上 获取 价格 ， 然 后 对 这 些 数 据 建 立 回归 模型 。 需 要 做 
的 第 一 件 事 就 是 如 何 获取 数据 。 
8.6.1 收集 数据 : 使 用 Google 购物 的 API 


Google 已 经 为 我 们 提供 了 一 套 购物 的 API 来 抓 取 价格 。 在 使 用 API 之 前 , 需要 注册 一 个 Google 
账号 ， 然 后 访问 Google API 的 控制 台 来 确保 购物 API 可 用 。 完成 之 后 就 可 以 发 送 HTTP 请 求 ， API 





@ 方差 指 的 是 模型 之 间 的 差异 ， 而 偏差 指 的 是 模型 预测 值 和 数据 之 间 的 差异 ， 请 读者 注意 区 分 。 一 译 者 注 
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将 以 JSON 格 式 返 回 所 需 的 产品 信息 。Python 提 供 了 JSON 解 析 模 块 , 我 们 可 以 从 返回 的 JSON 格 式 
里 整理 出 所 需 数据 。 详 细 的 API 介 绍 可 以 参见 : http://code.google.com/apis/shopping/search/v1/ 
.getting_started.html。 

打开 regression.py 文 件 并 加 入 如 下 代码 。 


程序 清单 8-5 ”购物 信息 的 获取 函数 


from time import sleep 

import json 

import urllib2 

def searchForSet (retX, retY, setNum, yr, numpce, origPprc): 











| sleep (10) 

| myAPIstr = 'get from code.google,com' 

| SearchURL = 'https://www.googleapis.com/shopping/search/v1l/public/ 
products?\ 





key=%s&country=US&q=lego+%d&alt=json' %$ (myAPIstr, setNum) 
pg = urllib2.urlopen (searchURL) 
retDict = json.loads (pg.read()) 
for i in range (len(retDict['items'])): 
ty 
currIitem = retDict{['items'] {i]) 
if currIitem{'product'] ['condition'] == 'new': 
newFlag = 1 
else: newFlag = 0 
py listOfInv = currIitem['product'] ['inventories'] 
| for item in listOfInv: 
1 SellingPrice = item['price'] 
if sellingPrice > OrigPrc * 0.5: 
print "%d\t%d\t%d\tgsf\tsf'" %\ 
{yr,numpce, newFlag,origPprc, sellingPrice) 
retxX.append( [yr, numPpce, newFlag, origPrc]) 
retY ,append (sellingPrice) 
except: print 'problem with item %d' 当 i 


.9 过 滤 掉 不 完整 的 套装 


: def setDataCollect (retX, retY): 

| searchForSet (retX, retY, 8288, 2006, 800, 49.99) 
searchForSet (retX, retyY, 10030, 2002, 3096, 269.99) 
SearchForSet (retX, retyY, 10179, 2007, 5195, 499.99) 
searchForSet (retX, retYy, 10181, 2007, 3428, 199.99) 
searchForSet (retX, retY, 10189, 2008, 5922, 299.99) 
searchForSet (retX, retY, 10196, 2009, 3263, 249.99) 


上 述 程序 清单 中 的 第 一 个 函数 是 searchForset () ， 它 调用 Google 购 物 API 并 保证 数据 抽取 
的 正确 性 。 这 里 需要 导入 新 的 模块 : time.sleep()、json 和 ur1Llib2。 但 是 一 开始 要 休眠 10 
秒 钟 ,这 是 为 了 防止 短 时 间 内 有 过 多 的 API 调 用 。 接 下 来 , 我 们 拼接 查询 的 URL 字 符 串 ， 添 加 API 
的 key 和 待 查询 的 套装 信息 ， 打 开 和 解析 操作 通过 json .1oads () 方 法 实现 。 完 成 后 我 们 将 得 到 
一 部 字典 ， 下 面 需要 做 的 是 从 中 找 出 价格 和 其 他 信息 。 

部 分 返回 结果 的 是 一 个 产品 的 数组 , 我 们 将 在 这 些 产 品 上 循环 迄 代 , 判断 该 产品 是 否 是 新 产 
品 并 抽取 它 的 价格 。 我 们 知道 ， 乐 高 套装 由 很 多 小 插件 组 成 , 有 的 二 手套 装 很 可 能 会 缺失 其 中 一 
两 件 。 也 就 是 说 ， 卖 家 只 出 售 套装 的 若干 部 件 (不 完整 )。 因 为 这 种 不 完整 的 套装 也 会 通过 检索 
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结果 返回 , 所 以 我 们 需要 将 这 些 信息 过 滤 掉 (可 以 统计 描述 中 的 关键 词 或 者 是 用 贝 叶 斯 方法 来 判 
断 )。 我 在 这 里 仅 使 用 了 一 个 简单 的 启发 式 方法 : 如 果 一 个 套装 的 价格 比 原始 价格 低 一 半 以 上 ， 
则 认为 该 套装 不 完整 。 程 序 清单 8-5 在 代码 @ 处 过 滤 掉 了 这 些 套 装 ， 解 析 成 功 后 的 套装 将 在 屏幕 
上 显示 出 来 并 保存 在 list 对 象 retx 和 retY 中 。 

程序 清单 8-5 的 最 后 一 个 函数 是 setDatacollect () ， 它 负责 多 次 调用 searchForSet ()。 
函数 searchForSet () 的 其 他 参数 是 从 www.brickset.com 收 集 来 的 ， 它 们 也 一 并 输出 到 文件 中 。. 

下 面 看 一 下 执行 结果 ， 添 加 程序 清单 8-5 中 的 代码 之 后 保存 regression.py， 在 Python 提 示 符 下 
输入 如 下 命令 : 


>>> lgX = []; 1g9Y = [] 
>>> regression.setDataCollect (lgX, lgY) 


2006 800 1 49.990000 549.990000 
2006 800 1 49.990000 759.050000 ’ 
2006 800 1 49.990000 316 .990000 
2002 3096 1 269.990000 499.990000 
2002 3096 二 269.990000 289.990000 
2009 3263 0 249.990000 524.990000 
2009 3263 1 249.990000 672.000000 
2009 3263 1 249.990000 580.000000 


检查 一 下 gx 和 1gY 以 确认 一 下 它们 非 空 。 下 节 我 们 将 使 用 这 些 数 据 来 构建 回归 方程 并 预测 
乐高 玩具 套装 的 售 价 。 


8.6.2 训练 算法 ， 建 立 模型 


上 一 节 从 网 上 收集 到 了 一 些 真 实 的 数据 , 下 面 将 为 这 些 数据 构建 一 个 模型 。 构建 出 的 模型 可 
以 对 售 价 做 出 预测 ， 并 帮助 我 们 理解 现 有 数据 。 看 一 下 Python 是 如 何 完成 这 些 工作 的 。 
首先 需要 添加 对 应 常数 项 的 特征 X0 (X0=1 )， 为 此 创建 一 个 全 1 的 矩阵 ; 


>>> Shape (1gX) 
(58，4) 
>>> 1g9X1=mat (ones((58,5))) 


接 下 来 ， 将 原 数据 矩阵 1gX 复 制 到 新 数据 矩阵 1gx1 的 第 1 到 第 5 列 ， 
>>> lgX1[:,1:5]=mat (lgxX) 


确认 一 下 数据 复制 的 正确 性 : 


>>> lgX[0] 

[2006.0, 800.0, 0.0, 49.990000000000002] 

>>> lgX1 [0]} 

matrix([[ 1.00000000e+00， 2.00600000e+03， 8.00000000e+02， 
0.00000000e+00 ， 4.99900000e+01]]) 


很 显然 ,后 者 除了 在 第 0 列 加 入 1 之 外 其 他 数据 都 一 样 。 最 后 在 这 个 新 数据 集 上 进行 回归 处 理 ， 


>>> ws=regression.standRegres (1gX1, 1gY) 
”>>> ws 








| 
| 
| 
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matrix([[ 5.53199701e+04] ， 
[ -2.75928219e+01] ， 
[ -2.68392234e-02] ， 
[ -1.12208481e+01] ， 
[ 2.57604055e+00]]) 


检查 一 下 结果 ， 看 看 模型 是 否 有 效 : 
>>> lgX1 [0] *ws 

matrix([[ 76.07418853]]) 

>>> lgxi[-1]j*ws 

matrix([[ 431.17797672]]) 

>>> 19X1 [43] *ws 

matrix([[ 516.20733105]]) 


可 以 看 到 模型 有 效 。 下 面 看 看 具体 的 模型 。 该 模型 认为 套装 的 售 价 应 该 采用 如 下 公式 计算 : 

$55319.97-27.59*Year-0.00268*NumPieces-11.22*NewOrUsed+2.57*original price 

这 个 模型 的 预测 效果 非常 好 ,但 模型 本 身 并 不 能 令 人 满意 。 它 对 于 数据 拟 合 得 很 好 , 但 看 上 
去 没有 什么 道理 。 从 公式 看 ， 套 装 里 零 部 件 越 多 售 价 反 而 会 越 低 。 另 外 ,该 公式 对 新 套装 也 有 一 
定 的 惩罚 。 

下 面 使 用 缩减 法 中 一 种 ， 即 岭 回归 再 进行 一 次 实验 。 前面 讨 论 过 如 何 对 系数 进行 缩减 , 但 这 
次 将 会 看 到 如 何 用 缩减 法 确定 最 佳 回归 系数 。 打 开 regression.py 并 输入 下 面 的 代码 。 


程序 清单 8-6 ”交叉 验证 测试 岭 回归 
def crossVvalidation (xArr,yArr,numVal=10): 
m = len (yArr) 
indexList = range (m) 
errorMat = zeros( (numVal,30)) 
for i in range (numVal): 
trainX=[]; ttzainY= [] 
testX = []; testY = [] 
random. shuffle (indexList) 
for j in range (m) : 
ij < m*0.9; 
trainx.append (xArr [indexList [j]]) 
trainY.append (yArr [indexList {j]]) 
else: 
testX.append (xArr [indexList [j]]) 
testY.append (yArr {indexList {j]]) 
wMat = ridgeTest (trainx,trainy)} 
for k in range(30): 


matTestX = mat (testX); matTrainX=mat (trainx) 和 用 训练 时 的 参数 将 


2 创建 训练 集 和 测试 集 容器 


数据 分 为 训练 集 和 测试 集 


meanTrain = mean (matTrainx, 0) 测试 数据 标准 化 
varTrain = var (matTrainx, 0) 
matTestX = (matTestX-meanTrain) /varTrain 
YEst = matTestX * mat(wMat[k,:]).T + mean{(trainYy) 
errorMat [i,k] =rssError (yEst.T.A,array (testY)) 
meanErrors = mean(errorMat, 0) 
minMean = float (min (meanErrors)) 
bestWeights = wMat [nonzero (meanErrors==minMean)] 
XMat = mat (xArr); yMat=mat (yArr).T 
meanX = mean (xMat,0); varX = var(xMat, 0) 
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Print "with constant term: ",\ 
' -l*sum{(multiply (meanX,unReg)) + mean(yMat) 


上 述 程序 清单 中 的 函数 crossvalidation () 有 三 个 参数 ,前 两 个 参数 lgx 和 1gY 存 有 数据 集中 
的 X 和 Y 值 的 list 对 象 ， 默 认 1gx 和 1gY 具 有 相同 的 长 度 。 第 三 个 参数 numval 是 算法 中 交叉 验证 的 次 
数 ， 如 果 该 值 没有 指定 ， 就 取 默 认 值 10。 函 数 crossvValidataion() 首 先 计算 数据 点 的 个 数 m。 创 
建 好 了 训练 集 和 测试 集 容 器 @， 之 后 创建 了 一 个 list 并 使 用 Numpy 提 供 的 random.shuffle() 函数 
对 其 中 的 元 素 进行 混 洗 ( shuffle )， 因 此 可 以 实现 训练 集 或 测试 集 数据 点 的 随机 选取 。 合 处 将 数据 
集 的 90% 分 割 成 训练 集 ， 其 余 10% 为 测试 集 ， 并 将 二 者 分 别 放 人 对 应 容器 中 。 

一 旦 对 数据 点 进行 混 洗 之 后 ， 就 建立 一 个 新 的 矩阵 wMat 来 保存 岭 回归 中 的 所 有 回归 系数 。 
我 们 还 记得 在 8.4.1 节 中 ， 函 数 =*idgemest () 使 用 30 个 不 同 的 4 值 创建 了 30 组 不 同 的 回归 系数 。 接 
下 来 我 们 也 在 上 述 测试 集 上 用 30 组 回归 系数 来 循环 测试 回归 效果 。 岭 回归 需要 使 用 标准 化 后 的 数 
据 ， 因 此 测试 数据 也 需要 用 与 测试 集 相同 的 参数 来 执行 标准 化 。 在 会 处 用 函数 rssError () 计算 
误差 ， 并 将 结果 保存 在 errorMat 中 。 

在 所 有 交叉 验证 完成 后 ，errorMat 保 存 了 ridgeTest () 里 每 个 1 对 应 的 多 个 误差 值 。 为 了 
将 得 出 的 回归 系数 与 standRegres () 作 对 比 , 需要 计算 这 些 误差 估计 值 的 均值 >。 有 一 点 值得 注 
意 ; 岭 回 归 使 用 了 数据 标准 化 ， 而 standRegres () 则 没有 ， 因 此 为 了 将 上 述 比较 可 视 化 还 需 将 
数据 还 原 。 在 @ 处 对 数据 做 了 还 原 并 将 最 终结 果 展 示 。 

来 看 一 下 整体 的 运行 效果 ， 在 regression.py 中 输入 程序 清单 8-6 中 的 代码 并 保存 ， 然 后 执行 如 
下 命令 : 

>>> regression.crossValidation(1lgX,19gY,10) . 

The best model from Ridge Regression is: 


[[ -2.96472902e+01 -1.34476433e-03 -3.38454756e+01 2.44420117e+001] 
with constant term: 59389.2069537 


为 了 便于 与 常规 的 最 小 二 乘法 进行 比较 ， 下 面 给 出 当前 的 价格 公式 : 

$59389.21-29.64*Year-0.00134*NumPieces-33.85*NewOrUsed+2.44*original price, 

可 以 看 到 , 该 结果 与 最 小 二 乘法 没有 太 大 差异 。 我们 本 期 望 找 到 一 个 更 易于 理解 的 模型 ， 显 
然 没有 达到 预期 效果 。 为 了 达到 这 一 点 ,我们 来 看 一 下 在 缩减 过 程 中 回归 系数 是 如 何 变 化 的 , 输 


unReg = bestWeights/varx 
print "the best model from Ridge Regression is:\n'",unReg 数据 还 原 


人 下 面 的 命令 : 
>>> regression.ridgeTest (lgX, lgY) 
array ({[ -1.45288906e+02, -8.39360442e+03， -3.28682450e+00, 
4.42362406e+04]， 
[ -1.46649725e+02， -1.89952152e+03,， -2.80638599e+00， 


4.27891633e+04] ， 


[ -4.91045279e-06, 5.01149871le-08, 2.40728171e-05， 
8.14042912e-07]]) 





@ 此 处 为 10 折 ， 所 以 每 个 应 该 对 应 10 个 误差 。 应 选取 使 误差 的 均值 最 低 的 回归 系数 。 一 一 译 者 注 
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这 些 系数 是 经 过 不 同 程度 的 缩减 得 到 的 。 首 先 看 第 1 行 ， 第 4 项 比 第 2 项 的 系数 大 5 倍 ， 比 第 1 
项 大 57 倍 。 这 样 看 来 ， 如 果 只 能 选择 一 个 特征 来 做 预测 的 话 ， 我 们 应 该 选择 第 4 个 特征 ， 也 就 是 
原始 价格 。 如 果 可 以 选择 2 个 特征 的 话 ， 应 该 选择 第 4 个 和 第 2 个 特征 。 

这 种 分 析 方法 使 得 我 们 可 以 挖掘 大 量 数据 的 内 在 规律 。 在 仅 有 4 个 特征 时 ， 该 方法 的 效果 也 
许 并 不 明显 ; 但 如 果 有 100 个 以 上 的 特征 ， 该 方法 就 会 变 得 十 分 有 效 : 它 可 以 指出 哪些 特征 是 关 
键 的 ， 而 哪些 特征 是 不 重要 的 。 


8.7 ”本 章 小 结 


与 分 类 一 样 , 回归 也 是 预测 目标 值 的 过 程 。 回归 与 分 类 的 不 同 点 在 于 , 前 者 预测 连续 型 变量 ， 
而 后 者 预测 离散 型 变量 。 回 归 是 统计 学 中 最 有 力 的 工具 之 一 。 在 回归 方程 里 , 求 得 特征 对 应 的 最 
佳 回归 系数 的 方法 是 最 小 化 误差 的 平方 和 。 给 定 输入 矩阵 Xx， 如 果 xX 的 逆 存 在 并 可 以 求 得 的 话 ， 
回归 法 都 可 以 直接 使 用 。 数 据 集 上 计算 出 的 回归 方程 并 不 一 定 意味 着 它 是 最 佳 的 , 可 以 使 用 预测 
值 yiHat 和 原始 值 y 的 相关 性 来 度量 回归 方程 的 好 坏 。 

当 数 据 的 样本 数 比 特征 数 还 少时 候 ， 矩 阵 x?x 的 逆 不 能 直接 计算 。 即 便当 样本 数 比特 征 数 多 
时 ，x'x 的 逆 仍 有 可 能 无 法 直接 计算 , 这 是 因为 特征 有 可 能 高 度 相关 。 这 时 可 以 考虑 使 用 岭 回归 ， 
因为 当 xx 的 逆 不 能 计算 时 ， 它 仍 保证 能 求 得 回归 参数 。 

岭 回 归 是 缩减 法 的 一 种 , 相当 于 对 回归 系数 的 大 小 施加 了 限制 。 另 一 种 很 好 的 缩减 法 是 lasso。 
Lasso 难 以 求解 ， 但 可 以 使 用 计算 简便 的 逐步 线性 回归 方法 来 求 得 近似 结果 。 

缩减 法 还 可 以 看 做 是 对 一 个 模型 增加 偏差 的 同时 减少 方差 。 偏 差 方 差 折 中 是 一 个 重要 的 概 
念 ， 可 以 帮助 我 们 理解 现 有 模型 并 做 出 改进 ， 从 而 得 到 更 好 的 模型 。 

本 章 介 绍 的 方法 很 有 用 。 但 有 些 时 候 数 据 间 的 关系 可 能 会 更 加 复杂 ,如 预测 值 与 特征 之 间 是 
非 线性 关系 , 这 种 情况 下 使 用 线性 的 模型 就 难以 拟 合 。 下 一 章 将 介绍 几 种 使 用 树 结构 来 预测 数据 
的 方法 。 





本 章 内 容 

口 CART 算 法 

口 回归 与 模型 树 

口 树 剪 枝 算法 

Q Python 中 GUI 的 使 用 


第 8 章 介绍 的 线性 回归 包含 了 一 些 强 大 的 方法 ， 但 这 些 方法 创建 的 模型 需要 拟 合 所 有 的 样本 
点 (局 部 加 权 线 性 回归 除外 )。 当 数据 拥有 众多 特征 并 且 特 征 之 间 关 系 十 分 复杂 时 ， 构 建 全 局 模 
型 的 想法 就 显得 太 难 了 ,也 咯 显 策 拙 。 而 且 ， 实际 生活 中 很 多 问题 都 是 非 线性 的 ,不 可 能 使 用 全 
局 线性 模型 来 拟 合 任何 数据 。 

一 种 可 行 的 方法 是 将 数据 集 切 分 成 很 多 份 易 建 模 的 数据 ， 然 后 利用 第 8 章 的 线性 回归 技术 来 
建 模 。 如 果 首 次 切 分 后 仍然 难以 拟 合 线性 模型 就 继续 切 分 。 在 这 种 切 分 方式 下 , 树 结构 和 回归 法 
就 相当 有 用 。 

本 章 首先 介绍 一 个 新 的 叫做 CART ( Classification And Regression Trees， 分 类 回归 树 ) 的 树 构 
建 算法 。 该 算法 既 可 以 用 于 分 类 还 可 以 用 于 回归 ， 因 此 非常 值得 学 习 。 然 后 利用 Python 来 构建 并 
显示 CART 树 。 代 码 会 保持 足够 的 灵活 性 以 便 能 用 于 多 个 问题 当中 。 接 着 ， 利 用 CART 算 法 构建 
回归 树 并 介绍 其 中 的 树 剪 枝 技 术 〈 该 技术 的 主要 目的 是 防止 树 的 过 拟 合 )。 之 后 引入 了 一 个 更 高 
级 的 模型 树 算法 。 与 回归 树 的 做 法 (在 每 个 叶 节 点 上 使 用 各 自 的 均值 做 预测 ) 不 同 ， 该 算法 需要 
在 每 个 叶 节 点 上 都 构建 出 一 个 线性 模型 。 在 这 些 树 的 构建 算法 中 有 一 些 需 要 调整 的 参数 ,所 以 还 
会 介绍 如 何 使 用 Python 中 的 Tkinter 模 块 建立 图 形 交 互 界面 。 最 后 ， 在 该 界面 的 辅助 下 分 析 参 数 对 
回归 效果 的 影响 。 


9.1 复杂 数据 的 局 部 性 建 模 


第 3 章 使 用 决策 树 来 进行 分 类 。 决 策 树 不 断 将 数据 切 分 成 小 数据 集 ， 直 到 所 有 目标 变量 完全 
相同 ,或 者 数据 不 能 再 切 分 为 止 。 决 策 树 是 一 种 贪心 算法 ， 它 要 在 给 定时 间 内 做 出 最 佳 选择 , 但 
并 不 关心 能 否 达到 全 局 最 优 。 
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优点 ;可 以 对 复杂 和 非 线性 的 数据 建 模 。 
缺点 ; 结果 不 易 理解。 
运用 数据 类 型 数值 型 和 标 称 型 数据 。 


第 3 章 使 用 的 树 构建 算法 是 ID3。ID3 的 做 法 是 每 次 选取 当前 最 佳 的 特征 来 分 割 数据 ， 并 按照 
该 特征 的 所 有 可 能 取 值 来 切 分 。 也 就 是 说 ， 如 果 一 个 特征 有 4 种 到 值 ， 那么 数据 将 被 切 成 4 份 。 一 
旦 按 某 特征 切 分 后 ,该 特征 在 之 后 的 算法 执行 过 程 中 将 不 会 再 起 作用 ， 所 以 有 观点 认为 这 种 切 分 
方式 过 于 迅速 。 另 外 一 种 方法 是 二 元 切 分 法 ， 即 每 次 把 数据 集 切 成 两 份 。 如 果 数 据 的 某 特征 值 等 
于 切 分 所 要 求 的 值 ， 那 么 这 些 数据 就 进入 树 的 左 子 树 ， 反 之 则 进入 树 的 右 子 树 。 

除了 切 分 过 于 迅速 外 ，ID3 算 法 还 存在 另 一 个 问题 ， 它 不 能 直接 处 理 连续 型 特征 。 只 有 事先 
将 连续 型 特征 转换 成 离散 型 ， 才 能 在 ID3 算 法 中 使 用 。 但 这 种 转换 过 程 会 破坏 连续 型 变量 的 内 在 
性 质 。 而 使 用 二 元 切 分 法 则 易于 对 树 构建 过 程 进行 调整 以 处 理 连续 型 特征 。 具 体 的 处 理 方法 是 ; 
如 果 特 征 值 大 于 给 定 值 就 走 左 子 树 , 否则 就 走 右 子 树 。 另 外 , 二 元 切 分 法 也 节省 了 树 的 构建 时 间 ， 
但 这 点 意义 也 不 是 特别 大 ， 因 为 这 些 树 构建 一 般 是 离线 完成 ， 时 间 并 非 需 要 重点 关注 的 因素 。 

CART 是 十 分 著名 且 广泛 记载 的 树 构建 算法 ， 它 使 用 二 元 切 分 来 处 理 连续 型 变量 。 对 CART 
稍 作 修改 就 可 以 处 理 回归 问题 。 第 3 章 中 使 用 香农 焙 来 度量 集合 的 无 组 织 程度 。 如 果 选 用 其 他 方 
法 来 代 炎 香 农 粹 ， 就 可 以 使 用 树 构建 算法 来 完成 回归 。 

下 面 将 实 观 CART 算 法 和 回归 树 。 回 归 树 与 分 类 树 的 思路 类 似 ， 但 叶 节点 的 数据 类 型 不 是 离 
散 型 ， 而 是 连续 型 。 


| 树 回归 的 一 般 方法 
(1) 收集 数据 : 采用 任意 方法 收集 数据 。 | 
(2) 准备 数据 : 需要 数值 型 的 数据 ， 标 称 型 数据 应 该 映射 成 二 值 型 数据 。 
(3) 分 析 数 据 : 绘 出 数据 的 二 维 可 视 化 显示 结果 ， 以 字典 方式 生成 树 。 
(4) 训练 算法 : 大 部 分 时 间 都 花费 在 叶 节点 树 模型 的 构建 上 。 
(5) 测试 算法 : 使 用 测试 数据 上 的 R2 值 来 分 析 模 型 的 效果 。 
(@ 使 用 算法 : 使 用 训练 出 的 树 做 预测 ， 预 测 结果 还 可 以 用 来 做 很 多 事情 


有 了 思路 之 后 就 可 以 开始 写 代 码 了 。 下 一 节 将 介绍 在 Python 中 利用 CARTI 算 法 构建 树 的 最 佳 方法 。 


9.2 连续 和 离散 型 特征 的 树 的 构建 


在 树 的 构建 过 程 中 ， 需 要 解决 多 种 类 型 数据 的 存储 问题 。 与 第 3 章 类 似 ， 这 里 将 使 用 一 部 字 
典 来 存储 树 的 数据 结构 ， 该 字典 将 包含 以 下 4 个 元 素 。 
口 待 切 分 的 特征 。 
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口 待 切 分 的 特征 值 。 

口 右 子 树 。 当 不 再 需要 切 分 的 时 候 ， 也 可 以 是 单个 值 。 

口 左 子 树 。 与 右 子 树 类 似 。 

这 与 第 3 章 的 树 结构 有 一 点 不 同 。 第 3 章 用 一 部 字典 来 存储 每 个 切 分 , 但 该 字典 可 以 包含 两 个 
或 两 个 以 上 的 值 。 而 CART 算 法 只 做 二 元 切 分 ， 所 以 这 里 可 以 固定 树 的 数据 结构 。 树 包含 左 键 和 
右键 , 可 以 存储 另 一 棵 子 树 或 者 单个 值 。 字典 还 包含 特征 和 特征 值 这 两 个 键 , 它们 给 出 切 分 算法 


所 有 的 特征 和 特征 值 。 当 然 , 读者 可 以 用 面向 对 象 的 编程 模式 来 建立 这 个 数据 结构 。 例 如 ， 可 以 


用 下 面 的 Python 代 码 来 建立 树 节点 : 
class treeNode(): 
def _init (self, feat, val, right, left): 
featureToSpliton = feat 
valueOfSplit = val 
rightBranch = right 
leftBranch = left 


_“ 当 使 用 C++ 这 样 不 太 灵 活 的 编程 语言 时 ,你 可 能 要 用 面向 对 象 编程 模式 来 实现 树 结构 Python 
具有 足够 的 灵活 性 , 可 以 直接 使 用 字典 来 存储 树 结构 而 无 须 另外 自 定义 一 个 类 ,从 而 有 效 地 减少 
代码 量 。Python 不 是 一 种 强 类 型 编程 语言 ， 因 此 接 下 来 会 看 到 , 树 的 每 个 分 枝 还 可 以 再 包含 其 他 
树 、 数 值 型 数据 甚至 是 向 量 。 

本 章 将 构建 两 种 树 ， 第 一 种 是 9.4 节 的 回归 树 (regression tree )， 其 每 个 叶 节 点 包含 单个 值 ; 
第 二 种 是 9.5 节 的 模型 树 ( model tree )， 其 每 个 叶 节 点 包含 一 个 线性 方程 。 创 建 这 两 种 树 时 ， 我们 
将 尽量 使 得 代码 之 间 可 以 重用 。 下 面 先 给 出 两 种 树 构 建 算法 中 的 一 些 共用 代码 。 

函数 createTree () 的 伪 代 码 大 致 如 下 : 


找到 最 佳 的 待 切 分 特征 ， 
如 果 该 节点 不 能 再 分 ， 将 该 节点 存 为 叶 节 点 
执行 二 元 切 分 
在 右 子 树 调用 createTree() 方 法 
在 左 子 树 调 用 createmree () 方 法 


打开 文本 编辑 器 ， 创 建文 件 regTrees .py 并 添加 如 下 代码 。 
程序 清单 9-1 CART 算 法 的 实现 代码 


from numpy import * 


def loadDataSet (fileName): 

dataMat = [] 

fr = open (fileName) 

for line in fr.readlines(): 
curLine = line.strip().split('\t') 
fltLine = map(float,curLine) 
dataMat .append (fltLine) 

return dataMat 


.9 将 每 行 映射 成 浮 点 数 








162 第 9 章 树 回归 








mat0 = dataSet [nonzero (dataSet [:,feature] > value) [0],:] {0] 
matl = dataSet [nonzero(dataSet[:,feature] <= value) [0],:] 10] 
return mato0,matl 


def createTree (dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 


| >: 
/ def binsplitDataSet (dataSet, feature, value): 

I 

| feat, val = chooseBestSplit (dataSet, leafType, errType, ops) 


if feat == None: return val 
ee 区 “和 @ 满足 停 上 条件 时 返回 时 节点 值 
retTree['spInd'} = feat 

' retTree['spVai'} = val 

. lSet, rsSet = binSplitDataSet (dataSet, feat, val) 

' retTreel[l'left'] = createTree(lSet, leafType, errType, ops) 

| retTree[l'right'] = createTree(rSset, leafType, errType, ops) 


return retTree 

上 述 程序 清单 包含 3 个 函数 ; 第 一 个 函数 是 1oadpataSet () , 该 函数 与 其 他 章节 中 同名 函数 
功能 类 似 。 在 前 面 的 章节 中 , 目标 变量 会 单独 存放 其 自己 的 列表 中 , 但 这 里 的 数据 会 存放 在 一 起 。 
该 函数 读 取 一 个 以 tab 键 为 分 隔 符 的 文件 ， 然 后 将 每 行 的 内 容 保存 成 一 组 浮 点 数 @。 

第 二 个 函数 是 pinsplitpataset () ， 该 函数 有 3 个 参数 : 数据 集合 、 待 切 分 的 特征 和 该 特 
征 的 某 个 值 。 在 给 定 特征 和 特征 值 的 情况 下 , 该 函数 通过 数组 过 滤 方 式 将 上 述 数据 集合 切 分 得 到 
两 个 子 集 并 返回 。 

最 后 一 个 函数 是 树 构建 函数 createrree () ， 它 有 4 个 参数 : 数据 集 和 其 他 3 个 可 选 参数 。 这 
些 可 选 参数 决定 了 树 的 类 型 ， leafType 给 出 建立 叶 节点 的 函数 ; errmType 代 表 误 差 计 算 函 数 ; 
而 ops 是 一 个 包含 树 构建 所 需 其 他 参数 的 元 组 。 
| 函数 cxeateTree () 是 一 个 递归 函数 。 该 函数 首先 尝试 将 数据 集 分 成 两 个 部 分 ， 切 分 由 函数 
| chooseBestsplit() 完 成 (这 里 未 给 出 该 函数 的 实现 )。 如 果 满 足 停止 条 件 ，chooseBest- 

split () 将 返回 None 和 某 类 模型 的 值 @。 如 果 构 建 的 是 回归 树 ， 该 模型 是 一 个 常数 。 如 果 是 模 
、 型 树 , 其 模型 是 一 个 线性 方程 。 后 面 会 看 到 停止 条 件 的 作用 方式 。 如 果 不 满足 停止 条 件 , choose 
BestSplit () 将 创建 一 个 新 的 Python 字 典 并 将 数据 集 分 成 两 份 ,在 这 两 份 数据 集 上 将 分 别 继续 递 
归 调 用 createTree () 图 数 。 
程序 清单 9-1 的 代码 很 容易 理解 , 但 其 中 的 方法 chooseBestsplit() 现 在 暂时 尚未 实现 , 所 
以 函数 还 不 能 看 到 createTree () 的 实际 效果 。 但 是 下 面 可 以 先 测试 其 他 两 个 函数 的 效果 。 将 程 
序 清单 9-1 的 代码 保存 在 文件 regTrees.py 中 并 在 Python 提示 符 下 输入 如 下 命令 : 


>>> import regTrees 
>>> testMat=mat (eye (4)) 
>>> testMat 
matrix([[ 1., 0 0.， 0.] 
[0., 1., 0., 0.] 
0 1 0.] 
于 





# 站 沼 人 
[ 0., 0., 0.， 


这 样 就 创建 了 一 个 简单 的 矩阵 ， 现 在 按 指定 列 的 某 个 值 来 切 分 该 矩阵 。 
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>>> mat0,mat1=regTrees .binSplitDataSet (testMat,1,0.5) 


>>> mat0 
matrix([{ 0., 1., 0., 0.]1) 
>>> matl 
matrix({[ 1., 0., 0., 0.], 
tO Oy cls 0] 
[Ow Os Qi Tl] 


”很 有 趣 吧 。 下 面 给 出 回归 树 的 chooseBestsplit () 函数 ， 还 会 看 到 更 有 趣 的 结果 。 下 
一 节 将 针对 回归 树 构 建 ， 在 chooseBestSp1lLit() 函数 里 加 入 具体 代码 ， 之 后 就 可 以 使 用 程 
序 清单 9-1 的 CART 算 法 来 构建 回归 树 。 


9.3 将 CART 算 法 用 于 回归 


要 对 数据 的 复杂 关系 建 模 , 我 们 已 经 决定 借用 树 结构 来 帮助 切 分 数据 , 那么 如 何 实现 数据 的 
切 分 呢 ? 怎么 才能 知道 是 否 已 经 充分 切 分 呢 ? 这 些 问题 的 答案 取决 于 叶 节点 的 建 模 方式 。 回 归 树 
假设 叶 节点 是 常数 值 ， 这 种 策略 认为 数据 中 的 复杂 关系 可 以 用 树 结构 来 概括 。 

为 成 功 构建 以 分 段 常 数 为 叶 节点 的 树 , 需要 度量 出 数据 的 一 致 性 。 第 3 章 使 用 树 进行 分 类 ， 
会 在 给 定 节点 时 计算 数据 的 混乱 度 。 那 么 如 何 计算 连续 型 数值 的 混乱 度 呢 ? 事实 上 ， 在 数据 
集 上 计算 混乱 度 是 非常 简单 的 。 首 先 计算 所 有 数据 的 均值 ， 然 后 计算 每 条 数据 的 值 到 均值 的 
差 值 。 为 了 对 正 负 差 值 同 等 看 待 ， 一 般 使 用 绝对 值 或 平方 值 来 代替 上 述 差 值 。 上 述 做 法 有 点 
类 似 于 前 面 介 绍 过 的 统计 学 中 常用 的 方差 计算 。 唯 一 的 不 同 就 是 , 方差 是 平方 误差 的 均值 ( 均 
方差 )， 而 这 里 需要 的 是 平方 误差 的 总 值 (总 方差 )。 总 方差 可 以 通过 均 方差 乘 以 数据 集中 样 
本 点 的 个 数 来 得 到 。 

有 了 上 述 误差 计算 准则 和 上 一 节 中 的 树 构 建 算法 ， 下 面 就 可 以 开始 构建 数据 集 上 的 回归 
树 了 。 


9.3.1 构建 树 


构建 回归 树 ， 需 要 补充 一 些 新 的 代码 ， 使 程序 清单 9-1 中 的 函数 createTree () 得 以 运转 。 
首先 要 做 的 就 是 实现 chooseBestsplit () 函数 。 给 定 某 个 误差 计算 方法 ， 该 函数 会 找到 数据 集 
上 最 佳 的 二 元 切 分 方式 。 另外， 该 函数 还 要 确定 什么 时 候 停 止 切 分 , 一 旦 停止 切 分 会 生成 一 个 叶 
节点 。 因 此 ， 函 数 chooseBestsplit() 只 需 完成 两 件 事 : 用 最 佳 方式 切 分 数据 集 和 生成 相应 的 
叶 节 点 。 

从 程序 清单 9-1 可 以 看 出 , 除了 数据 集 以 外 , 函数 chooseBestSplit () 还 有 leafType、 
errType 和 ops 这 三 个 参数 。 其 中 leafType 是 对 创建 叶 节 点 的 函数 的 引用 ，errType 是 对 
前 面 介绍 的 总 方差 计算 函数 的 引用 ， 而 ops 是 一 个 用 户 定义 的 参数 构成 的 元 组 ， 用 以 完成 树 
的 构建 。 
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上 述 代码 中 ， 函 数 chooseBestsplit () 最 复杂 ， 该 函数 的 目标 是 找到 数据 集 切 分 的 最 佳 
位 置 。 它 遍历 所 有 的 特征 及 其 可 能 的 取 值 来 找到 使 误差 最 小 化 的 切 分 阐 值 。 该 函数 的 伪 代 码 大 


致 如 下 : 
对 每 个 特征 : 
对 每 个 特征 值 : 
将 数据 集 切 分 成 两 份 
计算 切 分 的 误差 


如 果 当 前 误差 小 于 当前 最 小 误差 , 那么 将 当前 切 分 设 定 为 最 佳 切 分 并 更 新 最 小 误差 


返回 最 佳 切 分 的 特征 和 阅 值 
下 面 给 出 上 述 三 个 函数 的 具体 实现 代码 。 打 开 regTrees.py 文 件 并 加 入 程序 清单 9-2 中 的 代码 。 
程序 清单 9-2 回归 树 的 切 分 函数 


def regLeaf (dataSet): 
return mean (dataSet[:,-1]) 


def regErr (dataSet): 
return var{dataSet[:,-1]) * shape (dataSset) [0] 


def chooseBestSplit (dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 
tolS = ops[0]; tolN = ops [1] 
if len(set (dataSset[:,-1].T.tolist() [0])) == 1: 2 如 果 所 有 值 相等 则 退出 
return None, leafType (dataSet) 
m,n = shape (dataSet) 
S = errType (dataSet) 
bestSs = inf, bestIindex = 0; bestValue = 0 
for featIindex in range(n-1): 
for splitVal in set (dataSet[:,featIindex]): 
mat0, mat1 = binSplitDataSet (dataSet, featIndex; splitvVal) 
if (shape (mat0) {0] < tolN) or (shape (mat1) [0] < tolN): continue 
newS = errType (mat0) + errType (mat1) 
if newS < bests: 
bestIindex = featIindex 
bestValue = splitVal 
bestS = news 
if (S - bestS) < tols: 
return None, leafType (dataSet) 
mat0, matl = binSplitDataSet (dataSet, bestIndex, 2 如 果 切 分 出 的 数据 


如 果 误 差 减 少 不 大 则 退出 


if (shape (mat0) [0} < tolN) or (shape (mat1) [0] < tolN) : 集 很 小 则 退出 
return None, leafType (GQataSet) 
return bestIndex,bestValue 


上 述 程序 清单 中 的 第 一 个 函数 是 regLeaf () ， 它 负责 生成 叶 节 点 。 当 chooseBestsplit() 
函数 确定 不 再 对 数据 进行 切 分 时 ， 将 调用 该 regLeaf () 函数 来 得 到 叶 节 点 的 模型 。 在 回归 树 中 ， 
该 模型 其 实 就 是 目标 变量 的 均值 。 

第 二 个 函数 是 误差 估计 函数 regErr () 。 该 函数 在 给 定数 据 上 计算 目标 变量 的 平方 误差 。 当 
然 也 可 以 先 计算 出 均值 , 然后 计算 每 个 差 值 再 平方 。 但 这 里 直接 调用 均 方差 函数 var () 更 加 方便 。 
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因为 这 里 需要 返回 的 是 总 方差 ， 所 以 要 用 均 方差 乘 以 数据 集中 样本 的 个 数 。 

第 三 个 函数 是 chooseBestsplit() ， 它 是 回归 树 构 建 的 核心 函数 。 该 函数 的 目的 是 找到 数 
据 的 最 佳 二 元 切 分 方式 。 如 果 找 不 到 一 个 “好 ”的 二 元 切 分 ， 该 函数 返回 None 并 同时 调用 
createTree() 方 法 来 产生 叶 节 点 ， 叶 节点 的 值 也 将 返回 None。 接 下 来 将 会 看 到 ， 在 函数 
chooseBestsplit () 中 有 三 种 情况 不 会 切 分 ， 而 是 直接 创建 叶 节点 。 如 果 找 到 了 一 个 “好 ”的 切 
分 方式 ， 则 返回 特征 编号 和 切 分 特征 值 。 

函数 chooseBestsplit() 一 开始 为 ops 设 定 了 tolS 和 tolN 这 两 个 值 。 它们 是 用 户 指 定 的 参 
数 , 用 于 控制 函数 的 停止 时 机 。 其 中 变量 tols 是 容许 的 误差 下 降 值 ，tolN 是 切 分 的 最 少 样本 数 。 
接 下 来 通过 对 当前 所 有 目标 变量 建立 一 个 集合 ， 函 数 chooseBestsplit () 会 统计 不 同 剩余 特征 
值 的 数目 。 如 果 该 数目 为 1， 那 么 就 不 需要 再 切 分 而 直接 返回 合 。 然 后 函数 计算 了 当前 数据 集 的 
大 小 和 误差 。 该 误差 s 将 用 于 与 新 切 分 误差 进行 对 比 ， 来 检查 新 切 分 能 否 降低 误差 。 下 面 很 快 就 
会 看 到 这 一 点 。 

这 样 , 用 于 找到 最 佳 切 分 的 几 个 变量 就 被 建立 和 初始 化 了 。 下 面 就 将 在 所 有 可 能 的 特征 及 其 
可 能 取 值 上 遍历 ,找到 最 佳 的 切 分 方式 。 最 佳 切 分 也 就 是 使 得 切 分 后 能 达到 最 低 误 差 的 切 分 。 如 
果 切 分 数据 集 后 效果 提升 不 够 大 , 那么 就 不 应 进行 切 分 操作 而 直接 创建 叶 节 点 @。 另外 还 需要 检 
查 两 个 切 分 后 的 子 集 大 小 ， 如 果 某 个 子 集 的 大 小 小 于 用 户 定义 的 参数 tolN， 那 么 也 不 应 切 分 。 
最 后 ， 如 果 这 些 提 前 终止 条 件 都 不 满足 ， 那 么 就 返回 切 分 特征 和 特征 值 合 。 


9.3.2 ”运行 代码 


下 面 在 一 些 数 据 上 看 看 上 节 代 码 的 实际 效果 ， 以 图 9-1 的 数据 为 例 ， 我 们 的 目标 是 从 该 数据 
生成 一 棵 回归 树 。 
将 程序 清单 9-2 中 的 代码 添加 到 regTrees.py 文 件 并 保存 ， 然 后 在 Python 提示 符 下 输入 : 


>>>reload (regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 
>>> from numpy import * 


图 9-1 的 数据 存储 在 文件 ex00.txt 中 。 


>>> myDat=regTrees.loadDataSet ('ex00 .txt') 
>>> myMat = mat (myDat) 

>>> regTrees.createTree (myMat) 

{'spInd': 0, 'spVal': matrix([[ 0.48813]]), 
right : -0.044650285714285733， 

1Jeft': 1.018096767241379} 
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图 9-1 基于 CART 算 法 构建 回归 树 的 简单 数据 集 
再 看 一 个 多 次 切 分 的 例子 ， 参 见 图 9-2 的 数据 集 。 


图 9-2 ”用 于 测试 回归 树 的 分 段 常数 数据 集 
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图 9-2 的 数据 保存 在 一 个 以 tab 键 分 隔 的 文本 文档 ex0.txt 中 数据 。 为 从 上 述 数 据 中 构建 一 棵 回 
归 树 ， 在 Python 提示 符 下 融入 如 下 命令 


>>> myDat1=regTrees.loadDataSet ('ex0.txt') 

>>> myMatl=mat (myDat1) 

>>> regTrees.createTree (myMat1) 

{'spInd': 1, 'spVal': matrix([[ 0.39435]]), 'right': {'spInd': 1, 'spVal': 
matrix([[ 0.197834]]), 'right': -0.023838155555555553, 'left': 
1.0289583666666664}, 'left': {'spInd': 1, 'spVal': matrix([[ 0.582002]])， 
‘right': 1.9800350714285717, 'left': {'spInd': 1, 'spVal': matrix([[ 
0.797583]]), 'right': 2.9836209534883724, 'left': 3.9871632000000004}}} 


可 以 检查 一 下 该 树 的 结构 以 确保 树 中 包含 5 个 叶 节 点 。 读 者 也 可 以 在 更 复杂 的 数据 集 上 构建 
回归 树 并 观察 实验 结果 。 

到 现在 为 止 , 已 经 完成 回归 树 的 构建 , 但 是 需要 某 种 措施 来 检查 构建 过 程 否 得 当 。 下 面 将 介 
绍 树 剪 枝 〈tree pruning ) 技术 ， 它 通过 对 决策 树 前 枝 来 达到 更 好 的 预测 效果 。 


9.4 ” 树 剪 枝 


一 棵 树 如 果 节 点 过 多 ,表明 该 模型 可 能 对 数据 进行 了 “过 拟 合 ”。 那 么 ， 如 何 判 断 是 否 发 生 了 
过 拟 合 ? 前 面 章节 中 使 用 了 测试 集 上 某 种 交叉 验证 技术 来 发 现 过 拟 合 , 决策 树 亦 是 如 此 。 本 他 将 
对 此 进行 讨论 ， 并 分 析 如 何 避 免 过 拟 合 。 

通过 降低 决策 树 的 复杂 度 来 避免 过 拟 合 的 过 程 称 为 剪 枝 ( pruning )。 其 实 本 章 前 面 已 经 进行 
过 剪 枝 处 理 。 在 函数 chooseBestsplit () 中 的 提前 终止 条 件 ， 实 际 上 是 在 进行 一 种 所 谓 的 预 剪 
枝 (prepruning ) 操作 。 另 一 种 形式 的 剪 枝 需 要 使 用 测试 集 和 训练 集 ， 称 作 后 剪 枝 ( postpruning )。 
本 节 将 分 析 后 剪 枝 的 有 效 性 ， 但 首先 来 看 一 下 预 剪 枝 的 不 足 之 处 。 


9.4.1” 预 剪 枝 


上 节 两 个 简单 实验 的 结果 还 是 令 人 满意 的 , 但 背后 存在 一 些 问题 。 树 构建 算法 其 实 对 输入 的 
参数 tols 和 tolN 非 常 敏 感 ， 如 果 使 用 其 他 值 将 不 太 容 易 达 到 这 人 么 好 的 效果 。 为 了 说 明 这 一 上 后， 
在 Python 提 示 符 下 输入 如 下 命令 : 

>>> regTrees.createTree (myMat ,ops=(0,1)) 

与 上 节 中 只 包含 两 个 节点 的 树 相 比 , 这 里 构建 的 树 过 于 腔 肿 , 它 甚至 为 数据 集中 每 个 样本 都 
分 配 了 一 个 叶 节 点 。 

图 9-3 中 的 散 点 图 , 看 上 去 与 图 9-1 非 常 相似 。 但 如 果 仔 细 地 观察 y 轴 就 会 发 现 , 前 者 的 数量 级 
是 后 者 的 100 倍 。 这 将 不 是 问题 , 对 吧 ? 现在 用 该 数据 来 构建 一 覃 新 的 树 (数据 存放 在 ex2.txt 中 )， 
在 Python 提 示 符 下 输入 以 下 命令 : 


>>> myDat2=regTrees.loadDataSet ('ex2.txt') 
>>> myMat2=mat (myDat2) 
>>> regTrees .createTree (myMat2) 
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{'spInd': 0, 'spVal': matrix({[ 0. ,ri 1!, {igpInd': 0, 、 i 3 a ad a 是 
Re 足够 复杂 ,便于 剪 校 。 接 下 来 从 上 而 下 找到 叶 节点 ， 用 测试 集 来 判断 将 这 些 叶 节点 合并 是 否 能 降 
‘left': 7.9699461249999999},'1 低 测 斌 误差。 如果 是 的 话 就 合并 。 

| 函数 prune () 的 伪 代 码 如 下 : 

re [[ 9 1]),''right': 112.42895575000001, 基于 已 有 的 树 切 分 测试 数据 : 

2350000001}}}} , 如 果 存 在 任 一 子 集 是 一 棵 树 ， 则 在 该 子 集 递归 剪 枝 过 程 


200 计算 将 当前 两 个 叶 节点 合并 后 的 误差 
计算 不 合并 的 误差 . 
如 果 合 并 会 降低 误差 的 话 ， 就 将 叶 节 点 合并 
为 了 解 实际 效果 ， 打开 regTrees.py 并 输入 程序 清单 9-3 的 代码 。 


程序 清单 9-3 ”回归 树 剪 枝 函 数 
def isTree (obj): 
return (type(lobj). name =='dict') 





150 


100 


def getMean(tree): 
if isTree(tree[l'right']): tree['right'] = getMean (tree['right']) 
if isTree(tree[l'left']): tree['left'] = getMean (tree['left']) 


0 return (tree['left']+tree[l'right']})/2.0 
def prune(tree, testData): 没有 测试 数据 则 对 
if shape (testData) {0] == 0: return getMean(tree) 树 进行 塌陷 处 理 


if (isTree(tree['right'}) or isTree (tree['left'])): 
lSset, rSet = binSplitDataSet (testData, tree['spInd']， 
tree{'spVal']) 





_100 if isTree(tree[l'left']): treel[l'left'} = prune (tree['left']}, lSet) 
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 if isTree(tree['right']): tree[l'right'} = prune (tree[l'right'], rsSet) I 
* if not isTree (tree['left']) and not isTree (tree{'right']): | 
| 图 9-3 将 图 9-1 的 数据 的 y 轴 放大 100 信 后 的 新 数据 集 en 
所 注 S errorNo™M = ( (1Set [:,，-1] -七 ['left'],2)) +\ 
不知 你 注意 到 没有 ， 从 图 9-1 数 据 集 构建 出 来 的 树 只 有 两 个 叶 节点 ， 而 这 里 构建 的 新 树 则 有 i 
很 多 叶 节 点 。 产 生 这 个 现象 的 原因 在 于 ， 停 止 条 件 tols 对 误差 的 数量 级 十 分 敏感 。 如 果 在 选项 treeMean = (treel'left']+tree[l'right'])/2.0 | 
| 十 十 十 : 术 误 闫 究 7 、 肯 M = restData[:,-1]} - treeMean,2)) | 
中 花费 时 间 并 对 上 述 误差 容忍 度 取 平方 值 ， 或 许 也 能 得 到 仅 有 两 个 叶 节点 组 成 的 树 : et rn We | 
>>> regTrees.createTree (myMat2,ops=(10000,4)) print "merging" 
{'spInd': 0, 'spVal': matrix([{ 0.499171]]), 'right': -2.6377193297872341, return treeMean 
‘left': 101.35815937735855} else: return tree 
j 胃 让 人 4 2 lse: t 全 
然而 ， 通 过 不 断 修改 停止 条 件 来 得 到 合理 结果 并 不 是 很 好 的 办 法 。 事 实 上 ， 我 们 常常 甚至 不 确 Se 


程序 清单 9-3 中 包含 三 个 函数 : isTree()、 getMean() 和 prune ()。 其 中 isTree() 用 


定 到 底 需 要 寻找 什么 样 的 结果 。 这 正 是 机 器 学 习 所 关注 的 内 容 ， 计 算 机 应 该 可 以 给 出 总 体 的 概貌 。 于 测试 输入 变量 是 否 是 一 棵 树 ， 返 回 布尔 类 型 的 结果 。 换 句 话说 该 函数 用 于 判断 当前 处 理 
[ >» » :中 [s) 》 


下 节 将 讨论 后 剪 枝 ， 即 利用 测试 集 来 对 树 进行 剪 枝 。 由 于 不 需要 用 户 指定 参数 ,后 剪 校 是 一 





个 更 理想 化 的 前 校方 法 。 | 的 节点 是 否 是 叶 节 点 。 
函数 getMean () 是 一 个 递归 函数 , 它 从 上 往 下 遍历 树 直 到 叶 节点 为 止 。 如 果 找 到 两 个 叶 节 点 
9.4.2 ”后 剪 枝 . 则 计算 它们 的 平均 值 。 该 函数 对 树 进行 塌陷 处 理 〈 即 返回 树 平均 值 )， 在 prune () 函数 中 调用 该 


SE 2 函数 时 应 明确 这 一 点 。 
使 用 后 剪 枝 方法 需要 将 数据 集 分 成 测试 集 和 训练 集 。 首 先 指 定 人 参数 , 使 得 构建 出 的 树 足够 大 、 程序 清单 93 的 主 函 数 是 prune() ， 它 有 两 个 参数 ; 待 剪 杆 的 树 与 剪 枝 所 需 的 测试 数据 








I 
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Lutnata，prune() 函数 首先 需要 确认 测试 集 是 否 为 空 @@。 一 旦 非 空 ， 则 反复 递归 调用 函数 
orune () 对 测试 数据 进行 切 分 。 因 为 树 是 由 其 他 数据 集 (训练 集 ) 生成 的 ， 所 以 测试 集 上 会 有 一 
此 样本 与 原 数据 集 样本 的 取 值 范围 不 同 。 一 旦 出 现 这 种 情况 应 当 怎么 办 ? 数据 发 生 过 拟 合 应 该 过 
行 剪 枝 吗 ?或 者 模型 正确 不 需要 任何 剪 枝 ? 这 里 假设 发 生 了 过 拟 合 ， 从 而 对 树 进行 前 枝 。 

接 下 来 要 检查 某 个 分 支 到 底 是 子 树 还 是 节点 。 如 果 是 子 树 ， 就 调用 函数 prune () 来 对 该 子 树 
进行 剪 枝 。 在 对 左右 两 个 分 支 完成 前 枝 之 后 ,还 需要 检查 它们 是 否 仍然 还 是 子 树 。 如 果 两 个 分 支 
已 经 不 再 是 子 树 ， 那 么 就 可 以 进行 合并 。 具体 做 法 是 对 合并 前 后 的 误差 进行 比较 。 如 果 合并 后 的 
误差 比 不 合并 的 误差 小 就 进行 合并 操作 ， 反 之 则 不 合并 直接 返回 。 

接 下 来 看 看 实际 效果 ， 将 程序 清单 9-3 的 代码 添加 到 regTrees.py 文 件 并 保存 ， 在 Python 提示 符 
下 输入 下 面 的 命令 ; 


>>> reload(regTrees) 
module 'regTrees' from 'regTrees.pyc'> 


为 了 创建 所 有 可 能 中 最 大 的 树 ， 输 入 如 下 命令 ; 
>>> myTree=regTrees.createTree (myMat2， ops= {0,1)) 
输入 以 下 命令 导入 测试 数据 : 


>>> myDatTest=regTrees.1loadDataset ('ex2test .txt') 
>>> myMat2Test=mat (myDat' Test) 


输入 以 下 命令 ， 执 行 剪 枝 过 程 : 

>>> regTrees.prune (myTree, myMat2Test) 
merging 

merging 

merging 


merging 
{'spInd': 0, 'spVal': matrix([{ 0.499171]]), 'right': {'spInd': 0, 'spVal': 


01, 'left': {'spInd': 0, 'spVal': matrix([[ 0.960398]]), 'right': 123.559747, 
‘Jeft': 112.386764}}}, 'left': 92.523991499999994})}})} 


可 以 看 到 ， 大量 的 节点 已 经 被 剪 枝 掉 了 , 但 没有 像 预期 的 那样 剪 校 成 两 部 分 ， 这 说 明 后 剪 枝 
可 能 不 如 预 剪 枝 有 效 。 一 般 地， 为 了 寻求 最 佳 模型 可 以 同时 使 用 两 种 剪 枝 技术 。 

下 节 将 重用 部 分 已 有 的 树 构建 代码 来 创建 一 种 新 的 树 。 该 树 仍 采用 二 元 切 分 ， 但 叶 节 点 不 再 
是 简单 的 数值 ， 取 而 代 之 的 是 一 些 线性 模型 。 


9.5 “模型 树 


用 树 来 对 数据 建 模 , 除了 把 叶 节点 简单 地 设 定 为 常数 值 之 外 , 还 有 一 种 方法 是 把 叶 节点 设 定 
为 分 段 线性 函数 ， 这 里 所 谓 的 分 段 线性 〈《piecewise linear ) 是 指 模型 由 多 个 线性 片段 组 成 。 如 果 
读者 仍 不 清楚 ， 下 面 很 快 就 会 给 出 样 例 来 帮助 理解 。 考虑 图 9-4 中 的 数据 ， 如 果 使 用 两 条 直线 拟 
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合 是 否 比 使 用 一 组 常数 来 建 模 好 呢 ? 答案 显而易见 。 可 以 设计 两 条 分 别 从 0.0 ~0.3、 从 0.3 ~ 1.0 
的 直线 ， 于 是 就 可 以 得 到 两 个 线性 模型 。 因 为 数据 集 里 的 一 部 分 数据 (0.0 ~ 0.3 ) 以 某 个 线性 模 
型 建 模 ， 而 另 一 部 分 数据 (0.3 ~ 1.0 ) 则 以 另 一 个 线性 模型 建 模 ， 因 此 我 们 说 采用 了 所 谓 的 分 段 
线性 模型 。 

决策 树 相 比 于 其 他 机 器 学 习 算 法 的 优势 之 一 在 于 结果 更 易 理 解 。 很 显然 , 两 条 直线 比 很 多 节 
点 组 成 一 棵 大 树 更 容易 解释 。 模 型 树 的 可 解释 性 是 它 优 于 回归 树 的 特点 之 一 。 另 外 ,模型 树 也 具 
有 更 高 的 预测 准确 度 。 
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图 9-4 ”用 来 测试 模型 树 构建 函数 的 分 段 线性 数据 


前 面 的 代码 稍 加 修改 就 可 以 在 叶 节点 生成 线性 模型 而 不 是 常数 值 。 下 面 将 利用 树 生成 算法 对 
数据 进行 切 分 ， 且 每 份 切 分 数据 都 能 很 容易 被 线性 模型 所 表示 。 该 算法 的 关键 在 于 误差 的 计算 。 

前 面 已 经 给 出 了 树 构建 的 代码 , 但 是 这 里 仍然 需要 给 出 每 次 切 分 时 用 于 误差 计算 的 代码 。 不 
知道 读者 是 否 还 记得 之 前 createTree () 函数 里 有 两 个 参数 从 未 改变 过 。 回归 树 把 这 两 个 参数 固 
定 ， 而 此 处 略 做 修改 ， 从 而 将 前 面 的 代码 重用 于 模型 树 。 

下 一 个 问题 就 是 , 为 了 找到 最 佳 切 分 , 应 该 怎样 计算 误差 呢 ? 前 面 用 于 回归 树 的 误差 计算 方 


0.8 1.0 1.2 


法 这 里 不 能 再 用 。 稍 加 变化 ， 对 于 给 定 的 数据 集 ， 应 该 先 用 线性 的 模型 来 对 它 进 行 拟 合 ,然后 计 


算 真 实 的 目标 值 与 模型 预测 值 间 的 差 值 。 最 后 将 这 些 差 值 的 平方 求 和 就 得 到 了 所 需 的 误差 。 为 了 
解 实际 效果 ， 打 开 regTrees.py 文 件 并 加 入 如 下 代码 。 





i 
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程序 清单 9-4 ”模型 树 的 叶 节点 生成 函数 


def linearSolve (dataSet): 

mn = shape (dataSet) 

X = mat(ones((m,n))); Y = mat (ones((m,1))) 

X[:,1:n] = dataset{:,0:n-1]; Y = dataSet[:,-1] 

XTX = X.T*X 

if linalg,.det (xTx) == 0.0: 
raise NameError('This matrix is singular, cannot do inverse,\n\ 
try increasing the second value of ops'!) 

ws = XTX.I * (X.T * Y) 

return ws,X,Y 


| 如 将 X 与 Y 中 的 数据 格式 化 


def modelLeaf (dataSet): 
wS,X,Y = linearSolve (dataset) 
return ws 


def modelErr (dataSet): 
ws,X,Y = linearSolve (dataSet) 
yHat = X * ws 
return Sum (Power (Y - 


yHat, 2)) 

上 述 程 序 清单 中 的 第 一 个 函数 是 1inearsolve () ， 它 会 被 其 他 两 个 函数 调用 。 其 主要 功能 
是 将 数据 集 格式 化 成 目标 变量 Y 和 自 变 量 x @。 与 第 8 章 一 样 ， x 和 Y 用 于 执行 简单 的 线性 回归 。 另 
外 在 这 个 函数 中 也 应 当 注 意 ， 如 果 和 矩阵 的 逆 不 存在 也 会 造成 程序 异常 。 

第 二 个 函数 modelLeaf () 与 程序 清单 9-2 里 的 函数 regLeaf () 类似， 当 数 据 不 再 需要 切 
分 的 时 候 它 负 责 生 成 叶 节 点 的 模型 。 该 函数 在 数据 集 上 调用 1inearsolve () 并 返回 回归 系 
数 ws。 

最 后 一 个 函数 是 modelErr () ， 可 以 在 给 定 的 数据 集 上 计算 误差 。 它 与 程序 清单 9-2 的 函数 
regErr () 类 似 ， 会 被 chooseBestsplit() 调 用 来 找到 最 佳 的 切 分 。 该 函数 在 数据 集 上 调用 
linearSolve(), 之 后 返回 yHat 和 Y 之 间 的 平方 误差 。 

至 此 ， 使 用 程序 清单 9-1 和 程序 清单 9-2 中 的 函数 构建 模型 树 的 全 部 代码 已 经 完成 。 为 了 解 实 
际 效果 ， 保 存 regTrees.py 文 件 并 在 Python 提示 符 下 输入 ， 


>>> reload (regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 


图 9-4 的 数据 已 保存 在 一 个 用 tab 键 为 分 隔 符 的 文本 文件 exp2.txt 里 。 
>>> myMat2 = mat {regTrees.loadDataSet ('exp2.txt')) 


为 了 调用 函数 createTree () 和 模型 树 的 函数 ， 需 将 模型 树 函 数 作为 createTree () 的 参 
数 ， 输 入 下 面 的 命令 : 


>>> regTrees.createTree (myMat2， regTrees .modelLeaf, regTrees.modelErr, 
{1,10)) : 
{'spInd': 0, 'spVal': matrix([[ 0.285477]]), 'right': matrix([[ 
3.46877936], [ 1.18521743]])}, 'left': matrix{([[ 1.69855694e-03] ， 
{ 1.19647739e+01]])} 


可 以 看 到 ， 该 代码 以 0.285 477 为 界 创建 了 两 个 模型 ， 而 图 9-4 的 数据 实际 在 0.3 处 分 段 。 
createTree () 生 成 的 这 两 个 线性 模型 分 别 是 y=3 .468+1.1852 和 y=0.001 6985+11.964 77x， 
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9.6 示例 树 回归 与 标准 回归 的 比较 173 


与 用 于 生成 该 数据 的 真实 模型 非常 接近 。 该 数据 实际 是 由 模型 y=3 .5+1 .0x 和 y=0+12x 再 加 上 高 


”斯 噪声 生成 的 。 在 图 9-5 上 可 以 看 到 图 9-4 的 数据 以 及 生成 的 线性 模型 。 
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图 9-5 在 图 9-4 数 据 集 上 应 用 模型 树 算法 得 到 的 结果 


模型 树 、 回 归 树 以 及 第 8 章 里 的 其 他 模型 ， 哪 一 种 模型 更 好 呢 ? 一 个 比较 客观 的 方法 是 计算 
相关 系数 ， 也 称 为 R? 值 。 该 相关 系数 可 以 通过 调用 NumPy 库 中 的 命令 corrcoef (yHat，y, 
rowvar=0) 来 求解 ， 其 中 yHat 是 预测 值 ，y 是 目标 变量 的 实际 值 。 

前 一 章 使 用 了 标准 的 线性 回归 法 , 本章 则 使 用 了 树 回归 法 ,下 面 将 通过 实例 对 二 者 进行 比较 ， 
最 后 用 函数 corrcoef () 来 分 析 哪 个 模型 是 最 优 的 。 


9.6 示例 : 树 回 归 与 标准 回归 的 比较 


前 面 介绍 了 模型 树 、 回 归 树 和 一 般 的 回归 方法 ,下 面 测试 一 下 哪个 模型 最 好 。 本 节 首 先 给 出 
一 些 函数 ,它们 可 以 在 树 构建 好 的 情况 下 对 给 定 的 输入 进 行 预测 ,之 后 利用 这 些 函数 来 计算 三 种 
回归 模型 的 测试 误差 。 这 些 模 型 将 在 某 个 数据 上 进行 测试 , 该 数据 涉及 人 的 智力 水 平和 自行 车 的 
速度 的 关系 。 

这 里 的 数据 是 非 线 性 的 ， 不 能 简单 地 使 用 第 8 章 的 全 局 线性 模型 建 模 。 当 然 这 里 也 需要 声明 
一 下 ， 此 数据 纯 属 虚构 。 

下 面 先 给 出 在 给 定 输入 和 树 结构 情况 下 进行 预测 的 几 个 函数 。 打 开 regTrees.py 并 加 入 如 下 
代码 。 
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程序 清单 9-5 ”用 树 回归 进行 预测 的 代码 
def regTreeEval (model, inDat): 
return float (model) 
def modelTreeEval (model, inDat): 
n = shape (inDat) [1] 
X = matl(ones((1,n+1))) 
X[:,1:n+1]=inDat 
return float(X*model) 
def treeForeCast (tree, inpata, modelEval=regTreeEval): 
if not isTree (tree): return modelEval (tree, inData) 
if inData [tree['spInda']] > treel[l'spVal']: 
if isTree(tree{'left']}): 
return treeForeCast (treef'left'], inData , modelEval) 
else: 
return modelEval (tree['left'], inpata) 
else: 
if isTree (tree['right']): 
return treeForeCast (tree['right'], inData ， modelEval) 
else: 
return modelEval (tree['right'], inpata) 


def createForeCast (tree, testData, modelEval=regTreeEval): 
m=len(testData) 
yHat=mat (zeros ( (m, 1))) 
for i in range (m) : 
yHat {i,0] = treeForeCast (tree, mat (testData{i])}, modelEval) 
return yHat 


对 于 输入 的 单个 数据 点 或 者 行 向 量 , 函数 treeForecast () 会 返回 一 个 浮 点 值 。 在 给 定 树 结 
构 的 情况 下 , 对 于 单个 数据 点 , 该 函数 会 给 出 一 个 预测 值 。 调 用 函数 treeForecast () 时 需要 指 
定 树 的 类 型 ， 以 便 在 叶 节 点 上 能 够 调用 合适 的 模型 。 参 数 modelEval 是 对 叶 节 点 数据 进行 预测 
的 函数 的 引用 。 函 数 treeForecast () 自 顶 向 下 饥 历 整 棵 树 ， 直 到 命中 叶 节点 为 止 。 一 旦 到 达 叶 
节点 ， 它 就 会 在 输入 数据 上 调用 modelEval () 函数 ， 而 该 函数 的 默认 值 是 regTreeEval ()。 

要 对 回归 树叶 节点 进行 预测 ， 就 调用 函数 regTreeEval () ; 要 对 模型 树 节点 进行 预测 时 ， 
就 调用 modelTreeEval () 函数 。 它 们 会 对 输入 数据 进行 格式 化 处 理 ， 在 原 数据 和 矩阵 上 增加 第 0 
列 ， 然 后 计算 并 返回 预测 值 。 为 了 与 函数 modelTreeEval () 保持 一 致 ， 尽管 regTreeEval () 
只 使 用 一 个 输入 ， 但 仍 保留 了 两 个 输入 参数 。 

最 后 一 个 函数 是 createForcast () ， 它 会 多 次 调用 treeForeCast () 函数 。 由 于 它 能 够 以 
向 量 形式 返回 一 组 预测 值 , 因此 该 函数 在 对 整个 测试 集 进行 预测 时 非常 有 用 。 下面 很 快 会 看 到 这 
一 点 。 

接 下 来 考虑 图 9-6 所 示 的 数据 。 该 数据 是 我 从 多 个 骑 自 行车 的 人 那里 收集 得 到 的 。 图 中 给 出 
骑 自 行车 的 速度 和 人 的 智商 之 间 的 关系 。 下 面 将 基于 该 数据 集 建 立 多 个 模型 并 在 另 一 个 测试 集 上 
进行 测试 。 对 应 的 训练 集 数 据 保存 在 文件 bikeSpeedVsIq_train.txt 中 ， 而 测试 集 数据 保存 在 文件 
bikeSpeedVsIq_testtxt 中 。 
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骑 自 行车 的 速度 
图 9-6 “人 们 骑 自 行车 的 速度 和 他 们 智商 之 间 的 关系 数据 。 该 数据 用 于 比较 树 回 归 模 型 
和 普通 的 线性 回归 模型 


下 面 将 为 图 9-6 的 数据 构建 三 个 模型 。 首 先 ， 将 程序 清单 9-5 中 的 代码 保存 为 regTrees.py， 然 


后 在 Python 提 示 符 下 输入 以 下 命令 : 


>>>reload (regTrees) 


接 下 来 ， 利 用 该 数据 创建 一 棵 回 妇 树 : 

>>> trainMat=mat (regTrees.1l0adDataset ('bikeSpeedVsIq train.txt')) 

>>> testMat=mat (regTrees.1loadDataSet ('bikeSspeedVsIq_test .txt')) 

>>> myTree=regTrees.createTree (trainMat, ops= (1,20)) 

>>> yHat = regTrees.createForeCast (myTree, testMat[:,0]) 

>>> corrcoef (yHat, testMat [: ,1] ,rowvar=0) [0,1] 

0.96408523182221306 

同样 地 ， 再 创建 一 棵 模型 树 ， 

>>> myTree=regTrees.createTree (trainMat, regTrees .modelLeaf, 
regTrees.modelErr, (1,20)) 

>>> yHat = regTrees.createForeCast (myTree, testMat [:,0], 
regTrees .modelTreeEval) 

>>> corrcoef (yHat, testMat [: ,1] ,rowvar=0) [0,1] 

0.9760412191380623 


我 们 知道 ，R2 值 越 接 近 1.0 越 好 ， 所 以 从 上 面 的 结果 可 以 看 出 ， 这 里 模型 树 的 结果 比 回 归 树 
好 。 下 面 再 看 看 标准 的 线性 回归 效果 如 何 ， 这 里 无 须 导 入 第 8 章 的 任何 代码 ， 本 章 已 实现 过 一 个 
线性 方程 求解 函数 1inearSolve () : 


>>> ws, X,Y=regTrees.linearSolve (trainMat) 





>>> WS 
matrix({[{ 37.58916794], 
[ 6.18978355]]) 


为 了 得 到 测试 集 上 所 有 的 yHat 预 测 值 ， 在 测试 数据 上 循环 执行 : 
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>>> for i in range (Shape (testMat) [0] ) : 
yHat [i]=testMat [i,0]*ws [1,0]+ws[0,0] 


2 
最 后 来 看 一 下 R“ 值 : 
>>> Corrcoef (yHat, testMat{:,1],rowvar=0) [0,1] 
0.94346842356747584 


可 以 看 到 , 该 方法 在 R?" 值 上 的 表现 上 不 如 上 面 两 种 树 回归 方法 。 所以, 树 回归 方法 在 预测 复 
林 数 据 时 会 比 简单 的 线性 模型 更 有 效 , 相信 读者 对 这 个 结论 也 不 会 感到 意外 。 下 面 将 展示 如 何 对 
回归 模型 进行 定性 的 比较 。 

下 面 使 用 Python 提 供 的 框架 来 构建 图 形 用 户 界面 (GUI), 读者 可 以 使 用 该 GUI 来 探究 不 同 的 
回归 工具 。 


9.7 使 用 Python 的 Tkinter 库 创建 GUI 


机 器 学 习 给 我 们 提供 了 一 些 强大 的 工具 ， 能 从 未 知 数据 中 抽取 出 有 用 的 信息 。 因 此 ， 能 否 将 
这 些 信息 以 易于 人 们 理解 的 方式 呈现 十 分 重要 。 再 者 , 假如 人 们 可 以 直接 与 算法 和 数据 交互 , 将 
可 以 比较 轻松 地 进行 解释 。 如 果 仅 仅 只 是 绘制 出 一 幅 静 态 图 像 ， 或 者 只 是 在 Python 命 令 行 中 输出 
一 些 数字 , 那么 对 结果 做 分 析 和 交流 将 非常 困难 。 如 果 能 让 用 户 不 需要 任何 指令 就 可 以 按照 他 们 
自己 的 方式 来 分 析 数 据 , 就 不 需要 对 数据 做 出 过 多 解释 。 其 中 一 个 能 同时 支持 数据 呈现 和 用 户 交 
互 的 方式 就 是 构建 一 个 图 形 用 户 界面 (GUI，Graphical User Interface )， 如 图 9-7 所 示 。 


Tk [= 5 Ee 


厂 Model Tree 








图 9-7 默认 的 treeExplore 图 形 用 户 界面 ， 该 界面 同时 显示 了 输入 数据 和 一 个 回归 树 
模型 ， 其 中 的 参数 EolN=10，tols=1.0 
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示例 ; 利用 GUI 对 回归 树 调 优 
(1) 收集 数据 ， 所 提供 的 文本 文件 。 
(2) 准备 数据 : 用 Python 解 析 上 述 文件 ， 得 到 数值 型 数据 。 
(3) 分 析 数 据 : 用 Tkinter 构 建 一 个 GUI 来 展示 模型 和 数据 。 
(4) 训练 算法 : 训练 一 哥 回 归 树 和 一 棵 模型 树 ， 并 与 数据 集 一 起 展示 出 来 。 
(5) 测试 算法 : 这 里 不 需要 测试 过 程 。 
(6) 使 用 算法 : GUI 使 得 人 们 可 以 在 预 剪 枝 时 测试 不 同 参数 的 影响 ， 还 可 以 帮助 我 们 选择 
模型 的 类 型 。 


接 下 来 将 介绍 如 何 用 Python 来 构建 GUI。 首先 介绍 如 何 利用 一 个 现 有 的 模块 Tkinter 来 构建 
GUI， 之 后 介绍 如 何在 Tkinter 和 绘图 库 之 间 交 互 ， 最 后 通过 创建 GUI 使 人 们 能 够 自己 探索 模型 树 
和 回归 树 的 奥秘 。 


9.7.1 用 Tkinter 创 建 GUI 


Python 有 很 多 GUI 框 架 ， 其 中 一 个 易于 使 用 的 Tkinter， 是 随 Python 的 标准 编译 版 本 发 布 的 。 
Tkinter 可 以 在 Windows、Mac OS 和 大 多 数 的 Linux 平 台 上 使 用 。 
下 面 先 从 最 简单 的 Helle World 例 子 开始 。 在 Python 提 示 符 下 输入 以 下 命令 : 


>>> from Tkinter import * 
>>> root = Tk() 


这 时 会 出 现 一 个 小 窗口 或 者 一 些 错 误 提示 。 要 想 在 窗口 上 显示 一 些 文字 ， 可 以 输入 如 下 命令 : 


>>> myLabel = Label (root, text="Hello World") 
>>> myLabel .grid() 


输入 完毕 后 ， 文 本 框 里 就 会 显示 出 你 刚才 输入 的 文字 。 非 常 简单 吧 ! ， 
为 了 程序 的 完整 ， 应 该 再 输入 以 下 命令 ; 
>>> toot .mainloop () 
这 条 命令 将 启动 事件 循环 ， 使 该 窗口 在 众多 事件 中 可 以 响应 鼠标 点 击 、 按键 和 重 绘 等 动作 。 
Tkinter 的 GUI 由 一 些小 部 件 ( Widget ) 组 成 。 所 谓 小 部 件 ， 指 的 是 文本 框 (Text Box 入 按钮 
(Button )、 标 签 (Label ) 和 复 选 按钮 (Check Button ) 等 对 象 。 在 刚才 的 Hello World 例 子 中 ， 标 


签 myLabel1 就 是 其 中 唯一 的 小 部 件 。 当 调 用 myLabel 的 .grial() 方法 时 ， 就 等 于 把 myLabel 的 位 
置 告诉 了 布局 管理 器 ( Geometry Manager )。Tkinter 中 提供 了 几 种 不 同 的 布局 管理 器 ， 其 中 
的 .grid() 方 法 会 把 小 部 件 安排 在 一 个 二 维 的 表格 中 。 用 户 可 以 设 定 每 个 小 部 件 所 在 的 行列 位 


署 。 这 里 没有 做 任何 设 定 ，myLabel 会 默认 显示 在 0 行 0 列 。 


下 面 将 所 和 需 的 小 部 件 集 成 在 一 起 构建 树 管理 器 。 建 立 一 个 新 的 Python 文 件 treeExplore.py， 并 


在 其 中 加 入 程序 清单 9-6 的 代码 。 





| 
| 
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程序 清单 9-6 ”用 于 构建 树 管 理 器 界面 的 Tkinter 小 部 件 


from numpy import * 


from Tkinter import * 
import regTrees 


def reDraw {tolSs,tolN): 
pass 


def drawNewTree () : 
pass 


root=Tk{() 
Label (root, text="Plot Place Holder'") .grid(row=0, columnspan=3) 


Label (root, text='"tolN") .grid(row=1, column=0) 

tolNentry = Entry(root) 

tolNentry.grid(row=1, column=1) 

tolNentry.insert (0,'10') 

Label (root, text="tolS") .grid(row=2, column=0) 

tolSentry = Entry (root) 

tolSentry.grid(row=2, column=1) 

tolSentry.insert (0,'1.0') 

Button(root, text="ReDraw", command=drawNewTree) .grid (row=1, column=2,\ 
rowspan=3) 

chkBtnVvar = IntVar() 

chkBtn = Checkbutton(root, text="Model Tree'", variable = chkBtnVvar) 

chkBtn.grid(row=3, column=0, columnspan=2) 


reDraw.rawDat = mat (regTrees.1oadDataSet {'sine.txt')) 
reDraw.testDat = arange (min (reDraw.rawDat[:,0]),\ 

| max(reDraw.rawDat [:,0]),0.01) 
reDraw(1.0, 10) 


root .mainloop () 

程序 清单 9-6 的 代码 建立 了 一 组 Tkinter 模 块 ， 并 用 网 格 布局 管理 器 安排 了 它们 的 位 置 ， 这 里 
还 给 出 了 两 个 绘制 占 位 符 ( plot placeholder ) 函数 ， 这 两 个 函数 的 内 容 会 在 后 面 补充 。 这 里 所 使 
用 代码 的 格式 与 前 面 的 例子 一 致 ， 即 首先 创建 一 个 Tk 类 型 的 根部 件 然后 插 人 标签 。 读 者 可 以 使 
用 .gria() 方 法 设 定 行 和 列 的 位 置 。 另 外 ， 也 可 以 通过 设 定 columnspan 和 rowspan 的 值 来 告诉 
布局 管理 器 是 否 人 允许 一 个 小 部 件 跨行 或 跨 列 。 除 此 之 外 还 有 其 他 设置 项 可 供 使 用 。 

还 有 一 些 新 的 小 部 件 暂时 未 使 用 到 , 这 些小 部 件 包括 文本 输入 框 ( Entry )、 复 选 按 钮 ( check- 
button ) 和 按钮 整数 值 ( Intvar ) 等 。 其 中 Entry 部 件 是 一 个 允许 单行 文本 输入 的 文本 框 。 


Checkbutton 和 IntVar 的 功能 显而易见 : 为 了 读 取 checkbutton 的 状态 需要 创建 一 个 变量 , 也 


就 是 IntVar。 

最 后 初始 化 一 些 与 repraw() 关 联 的 全 局 变量 ， 这 些 变量 会 在 后 面 用 到 。 这 里 没有 给 出 “ 退 
出 ”按钮 ， 因 为 如 果 用 户 想 退 出 ， 可 以 通过 点 击 右上 角 关 闭 整 个 窗口 ， 增 加 额外 的 退出 按钮 有 点 
多 此 一 举 。 假 如 读者 真 的 想 添 加 一 个 的 话 ， 可 以 输入 下 面 的 代码 来 实现 ， 


Buttonl(root, text='Quit',fg="black", command=root .quit) .Grid(row=1， 
column=2) 
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保存 程序 清单 9-6 的 代码 并 执行 ， 可 以 看 到 与 图 9-8 类 似 的 图 。 


piot Place Holder 
tolN|10 


tols |10 
FF Model Tree 





图 9-8 ”使 用 多 个 Tkinter 部 件 创建 的 树 管理 器 


现在 GUI 可 以 按照 要 求 正常 运行 了 ,下 面 利用 它 来 绘图 。 接 下 来 的 小 节 中 将 在 同一 幅 图 上 绘 
出 原始 数据 集 及 其 对 应 的 树 回归 预测 值 。 


9.7.2 ”集成 Matplotlib 和 Tkinter 


本 书 已 经 用 Matplotlib 绘 制 过 很 多 图 像 , 能 否 将 这 些 图 像 直接 放 在 GUI 上 呢 ? 下 面 将 首先 介绍 
“后 端的 概念 ， 然 后 通过 修改 Matplotlib 后 端 ( 仅 在 我 们 的 GULE ) 达到 在 Tkinter 的 GUI 上 绘图 的 
目的 。 

Matplotlib 的 构建 程序 包含 一 个 前 端 ， 也 就 是 面向 用 户 的 一 些 代 码 ， 如 plot () 和 scatter () 
方法 等 。 事 实 上 ， 它 同时 创建 了 一 个 后 端 ， 用 于 实现 绘图 和 不 同 应 用 之 间接 口 。 通 过 改变 后 端 可 
以 将 图 像 绘制 在 PNG、PDF、SVG 等 格式 的 文件 上 。 下 面 将 设置 后 端 为 TkAgg ( Agg 是 一 个 C++ 
的 库 ， 可 以 从 图 像 创建 光栅 图 "0 )。TkAgg 可 以 在 所 选 GUI 框架 上 调用 Agg， 把 Agg 呈 现在 画布 上 。 
我 们 可 以 在 Tk 的 GUI 上 放置 一 个 画布 ,并 用 .gria() 来 调整 布局 。 

先 用 画布 来 蔡 换 绘制 占 位 符 ， 山 掉 对 应 标签 并 添加 以 下 代码 ， 


reDraw.f = Figure (figsize=(5,4), dpi=100) 

reDraw.canvas = FigureCanvasTkAgg (reDraw.f, master=root) 
reDraw.canvas.show{() 
reDraw.canvas.get tk widget{() .grid(row=0, columnspan=3) 


现在 将 树 创建 函数 与 该 画布 链接 起 来 。 看 一 下 实际 效果 ， 打开 treeExplore.py 并 添加 下 面 的 代 
码 。 注 意 我 们 之 前 实现 过 reDraw () 和 drawTree () 的 存根 ( stub ),， 确保 同 一 个 函数 不 要 重复 
出 现 。 


程序 清单 9-7 ”Matplotlib 和 Tkinter 的 代码 集成 


import matplotlib 

matplotlib.use('TkAgg') 

from matplotlib.backends .backend tkagg import FigureCanvasTkAgg 
from matplotlib.figure import Figure 





Qa 光栅 图 也 称 为 位 图 、 点 阵 图 、 像 素 图 ， 按 点 阵 保存 图 像 ， 放 大 会 有 失真 。 与 光栅 图 相对 的 是 矢量 图 ， 也 称 为 向 量 图 。 
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def reDraw (tolS,tolN): 

reDraw.f .clf() 

reDraw.a = reDraw.f.add subplot (111) 

if chkBtnVar.get(): 
if tolN < 2: tolN = 2 
myTree=regTrees .createTree (reDraw.rawDat, regTrees .modelLeaf, \ 

regTrees .modelErr, (tolS,olN) ) 
yHat = regTrees.createForeCagst (myTree, reDraw.testDat, \ 
regTrees .modelTreeEval) 


检查 复 选 框 是 否 选中 


else: 
myTree=regTrees.createTree (reDraw.rawDat, ops=(tolS,tolN)) 
yHat = regTrees.createForeCast (myTree, reDraw.testDat) 
reDraw.a.scatter (reDraw.rawDat [:,0], reDraw.rawDat[:,1], s=5) 
reDraw.a.plot (reDraw.testDat, yHat, linewidth=2.0) 
reDraw.canvas. show () 


def getInputs() : 
try: tolN = int(tolNentry.get () ) 
except: 
tolN = 10 
print "enter Integer for tolN" 
tolNentry.delete (0, END) 
tolNentry.insert (0,'10') 
try: tolS = float{(tolSentry .get()) 
except: 
tolS = 1.0 
print "enter Float for tols" 
tolSentry.delete(0, END) 
tolSentry.insert (0,'1.0') 
return tolN,tols 


| 有 清除 错误 的 输入 并 用 默认 值 蔡 换 


def drawNewTree(): 
tolN,tolS = getInputs() 
reDraw (tols, tolN) 


上 述 程 序 中 一 开始 导入 Matplotlib 文 件 并 设 定 后 端 为 TkAgg。 接 下 来 的 两 个 import 声 明 将 
TkAgg 和 Matplotlib 图 链接 起 来 。 

先 来 介绍 函数 GrawNewTree () 。 从 程序 清单 9-6 可 知 , 在 有 人 点 击 ReDraw 按 钮 时 就 会 调用 该 
函数 。 函 数 实 现 了 两 个 功能 ;第 一 ， 调 用 getInputs () 方 法 得 到 输入 框 的 值 ; 第 二 ， 利 用 该 值 
调用 reDraw() 方 法 生成 一 个 漂亮 的 图 。 下 面 对 这 些 函 数 进行 逐个 介绍 。 

函数 get Inputs () 试图 理解 用 户 的 输入 并 防止 程序 崩溃 。 其 中 tols 期 望 的 输入 是 浮 点 数 ， 
而 tolN 期 望 的 输入 是 整数 。 为 了 得 到 用 户 输入 的 文本 ， 可 以 在 Entry 部 件 上 调用 .get () 方 法 。 
虽然 表单 验证 会 在 GUI 编 程 时 花费 大 量 的 时 间 ， 但 这 一 点 对 于 用 户 体验 来 说 必 不 可 少 。 男 外 ， 这 
里 使 用 了 try :和 和 except :模式 。 如 果 Python 可 以 把 输入 文本 解析 成 整数 就 继续 执行 , 如 果 不 能 识 
别 则 输出 错误 消息 ， 同 时 清空 输入 框 并 恢复 其 默认 信和 @。 对 tols 而 言 也 存在 同样 的 处 理 过 程 ， 
最 后 返回 输入 值 。 

函数 reDraw() 的 主要 目的 是 把 树 绘制 出 来 。 该 函数 假定 输入 是 合法 的 ， 它 首先 要 做 的 是 
清空 之 前 的 图 像 ， 使 得 前 后 两 个 图 像 不 会 重 琶 。 清 空 时 图 像 的 各 个 子 图 也 都 会 被 清除 ， 所 以 
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需要 重新 添加 一 个 新 图 。 接 下 来 函数 会 检查 复 选 框 是 否 被 选中 全 。 根据 复 选 框 是 否 被 选中 , 确 
定 基于 tols 和 tolN 和 参数 构 建 模型 树 还 是 回归 树 。 当 树 构建 完成 之 后 就 对 测试 集 testDat 进 行 
预测 ， 该 测试 集 与 训练 集 有 相同 的 范围 且 点 的 分 布 均匀 。 最 后 ， 真 实数 据 和 预测 值 都 被 绘制 
出 来 。 具体 实现 是 ， 真实 值 采用 scatter () 方 法 绘制 ,而 预测 值 则 采用 plot () 方 法 绘制 ， 这 
是 因为 scatter () 方 法 构建 的 是 离散 型 散 点 图 ， 而 plot () 方 法 则 构建 连续 曲线 。 

下 面 看 一 下 实际 效果 ， 保 存 treeExplore.py 并 执行 。 如 果 读 者 使 用 开发 环境 IDE 来 编码 ， 那 么 
可 以 用 run 命 令 来 运行 程序 。 在 命令 行 下 可 以 直接 使 用 命令 python treeExplore.py 来 运行 。 
执行 完 之 后 应 该 可 以 看 到 类 似 于 图 9-7 的 结果 。 

图 9-7 的 GUI 包含 了 图 9-8 所 有 的 小 部 件 ， 而 占 位 符 采用 Matplotlib 图 替换 。 默 认 情 况 下 会 给 出 
一 棵 包含 八 个 叶 节 点 的 回归 树 ( 参见 图 9-7 )。 我 们 也 可 以 尝试 模型 树 。 通 过 选中 模型 树 的 复 选 框 ， 
再 点 击 ReDraw 按 钮 ， 就 应 该 可 以 看 到 类 似 于 图 9-9 的 模型 树 结果 。 












ReDraw | 


近 Model Tree 





图 9-9 用 treeExplore 的 GUI 构 建 的 模型 树 ， 该 图 使 用 了 与 图 9-7 相 同 的 数据 和 参 
数 。 与 回归 树 相 比 ， 模 型 树 取得 了 更 好 的 预测 效果 


读者 可 以 在 上 述 treeExplore 中 尝试 不 同 的 参数 值 。 整 个 数据 集 包 含 200 个 样本 ,可 以 将 
tolN 设 为 150 后 观察 执行 效果 。 为 构建 尽 可 能 大 的 树 ， 应 当 将 tolN 设 为 1， 将 tolS 设 为 0。 读 者 可 
以 测试 一 下 并 观察 执行 的 效果 。 
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9.8 ”本 章 小 结 


数据 集中 经 常 包含 一 些 复杂 的 相互 关系 , 使 得 输入 数据 和 目标 变量 之 间 呈 现 非 线性 关系 。 对 
这 些 复杂 的 关系 建 模 ,一 种 可 行 的 方式 是 使 用 树 来 对 预测 值 分 段 , 包括 分 段 常数 或 分 段 直线 。 一 
般 采 用 树 结构 来 对 这 种 数据 建 模 。 相 应 地 ， 若 叶 节点 使 用 的 模型 是 分 段 常 数 则 称 为 回归 树 ， 若 叶 
节点 使 用 的 模型 是 线性 回归 方程 则 称 为 模型 树 。 

CART 算 法 可 以 用 于 构建 二 元 树 并 处 理 离散 型 或 连续 型 数据 的 切 分 。 若 使 用 不 同 的 误差 准则 ， 
就 可 以 通过 CART 算 法 构建 模型 树 和 回归 树 。 该 算法 构建 出 的 树 会 倾向 于 对 数据 过 拟 合 。 一 棵 过 
拟 合 的 树 常常 十 分 复杂 , 剪 枝 技术 的 出 现 就 是 为 了 解决 这 个 问题 。 两 种 剪 枝 方法 分 别 是 预 前 枝 ( 在 
树 的 构建 过 程 中 就 进行 剪 枝 ) 和 后 剪 枝 ( 当 树 构建 完毕 再 进行 剪 枝 )， 预 剪 枝 更 有 效 但 需要 用 户 
定义 一 些 人 参数。 

Tkinter 是 Python 的 一 个 GUI 工具 包 。 虽 然 并 不 是 唯一 的 包 ， 但 它 最 常用 。 利 用 Tkinter， 我 们 
可 以 轻松 绘制 各 种 部 件 并 灵活 安排 它们 的 位 置 。 另 外 ， 可 以 为 Tkinter 构 造 一 个 特殊 的 部 件 来 显示 
Matplotlib 绘 出 的 图 。 所 以 , Matplotlib 和 Tkinter 的 集成 可 以 构建 出 更 强大 的 GUI, 用 户 可 以 以 更 自 
然 的 方式 来 探索 机 器 学 习 算 法 的 奥妙 。 

本 章 是 回归 的 最 后 一 章 ， 希 望 读 者 没有 错过 。 接 下 来 我 们 将 离开 监督 学 习 的 岛屿 ， 驶 向 无 监 
督学 习 的 未 知 港湾 。 在 回归 和 分 类 ( 监督 学 习 ) 中 ， 目 标 变量 的 值 是 已 知 的 。 在 后 面 的 章节 将 会 
看 到 ， 无 监督 学 习 中 上 述 条 件 将 不 再 成 立 。 下 一 章 的 主要 内 容 是 K- 均 值 聚 类 算法 。 











”pp 让 第 三 部 分 
名 
无 监督 学 习 








这 一 部 分 介绍 的 是 无 监督 机 器 学 习 方法 。 该 主题 与 前 两 部 分 有 所 不 同 。 在 无 监督 学 习 中 ， 
类 似 分 类 和 回归 中 的 目标 变量 事先 并 不 存在 。 与 前 面 “对 于 输入 数据 和 能 预测 变量 Y "不同 的 是 ， 
这 里 要 回答 的 问题 是 : “从 数据 X 中 能 发 现 什么 ?” ”这 里 需要 回答 的 和 方面 的 问题 可 能 是 :“ 构 
成 X 的 最 佳 6 个 数据 徐 都 是 哪些 ? ”或 者 “X 中 哪 三 个 特征 最 频繁 共 现 ? ” 

第 10 章 介绍 了 无 监督 学 习 中 的 聚 类 《〈 将 相似 项 聚 团 ) 方法 ， 包 括 k 均值 聚 类 算法 。 第 11 
章 介绍 了 基于 Apriori 算法 的 关联 分 析 或 者 称 购物 篮 分 析 。 关 联 分 析 可 以 用 于 回答 “哪些 物品 经 
常 被 同时 购买 ? ”之 类 的 问题 。 无 监督 学 习 部 分 的 最 后 一 章 ， 即 第 12 章 将 介绍 一 个 更 高 效 的 关 
联 分 析 算法 ; FP-growth 算法 。 




















本 章 内 容 

口 K- 均 值 聚 类 算法 

口 对 聚 类 得 到 的 复 进 行 后 处 理 
口 二 分 K- 均 值 聚 类 算法 

口 对 地 理 位 置 进行 聚 类 


在 2000 年 和 2004 年 的 美国 总 统 大 选中 , 候选 人 的 得 票数 比较 接近 或 者 说 非常 接近 。 任 一 候选 
人 得 到 的 普选 票数 的 最 大 百分比 为 50.7%， 而 最 小 百分比 为 47.9%。 如 果 1% 的 选民 将 手中 的 选票 
投向 另外 的 候选 人 ,那么 选举 结果 就 会 截然 不 同 。 实 际 上 ， 如 果 妥 善 加 以 引导 与 吸引 ， 少 部 分 选 
民 就 会 转换 立场 。 尽 管 这 类 选举 者 占 的 比例 较 低 ， 但 当 候 选 人 的 选票 接近 时 ， 这 些 人 的 立场 无 疑 
会 对 选举 结果 产生 非常 大 的 影响 "。 如 何 找 出 这 类 选民 ， 以 及 如 何在 有 限 的 预算 下 采取 措施 来 吸 
引 他 们 ? 答案 就 是 聚 类 ( Clustering )。 

接 下 来 介绍 如 何 通 过 素 类 实现 上 述 目 标 。 首先, 收集 用 户 的 信息 , 可 以 同时 收集 用 户 满意 或 
不 满意 的 信息 ,这 是 因为 任何 对 用 户 重要 的 内 容 都 可 能 影响 用 户 的 投票 结果 。 然 后 , 将 这 些 信息 
输入 到 某 个 取 类 算法 中 。 接 着 ， 对 聚 类 结果 中 的 每 一 个 徐 (最 好 选择 最 大 徐 )， 精 心 构造 能 够 吸 
引 该 簇 选民 的 消息 。 最 后 ， 开 展 竞选 活动 并 观察 上 述 做 法 是 否 有 效 。 

聚 类 是 一 种 无 监督 的 学 习 ， 它 将 相似 的 对 象 归 到 同一 个 簇 中 。 它 有 点 像 全 自动 分 类 @。 聚 类 
方法 几乎 可 以 应 用 于 所 有 对 象 ， 禾 内 的 对 象 越 相似 ， 聚 类 的 效果 越 好 。 本 章 要 学 习 一 种 称 为 K- 
均值 (K-means ) 聚 类 的 算法 。 之 所 以 称 之 为 K- 均 值 是 因为 它 可 以 发 现 k 个 不 同 的 搁 ， 且 每 个 拨 的 
中 心 采 用 复 中 所 含 值 的 均值 计算 而 成 。 下 面 会 逐步 介绍 该 算法 的 更 多 细节 。 

在 介绍 -均值 算法 之 前 ， 先 讨论 一 下 签 识 别 〈cluster identification )。 复 识别 给 出 聚 类 结 


Q@ 对 于 微 目标 策略 如 何 成 功用 于 2004 年 的 美国 总 统 大 选 的 细节 ， 请 参见 Foumier、Sosnik “与 Dowd 合 著 的 4pplebee' s 
America ( Simon & Schuster, 2006 ) — 书 。 


加 这 里 的 自动 意思 是 连 类 别 体系 都 是 自动 构建 的 。 一 一 译 者 注 
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果 的 含义 。 假 定 有 一 些 数据 ， 现 在 将 相似 数据 归 到 一 起 ， 秘 识别 会 告诉 我 们 这 些 徐 到 底 都 是 
些 什么 。 聚 类 与 分 类 的 最 大 不 同 在 于 ， 分 类 的 目标 事先 已 知 ， 而 聚 类 则 不 一 样 。 因 为 其 产生 
的 结果 与 分 类 相同 ， 而 只 是 类 别 没有 预先 定义 ， 聚 类 有 时 也 被 称 为 无 监督 分 类 (unsupervised 
classification )。 

聚 类 分 析 试 图 将 相似 对 象 轨 入 同一 徐 , 将 不 相似 对 象 归 到 不 \ 同 簇 。 相 似 这 一 概念 取决 于 所 选 
择 的 相似 度 计算 方法 。 前 面 章节 已 经 介绍 了 不 同 的 相似 度 计算 方法 ， 后 续 章 节 它 们 会 继续 出 现 。 
到 底 使 用 哪 种 相似 度 计算 方法 取决 于 具体 应 用 。 

下 面 会 构建 K- 均 值 方法 并 观察 其 实际 效果 。 接 下 来 还 会 讨论 简单 K- 均 值 算法 中 的 一 些 缺 陷 。 
为 了 解决 其 中 的 一 些 缺 陷 , 可 以 通过 后 处 理 来 产生 更 好 的 簇 。 接 着 会 给 出 一 个 更 有 效 的 称 为 二 分 
KK- 均 值 ( bisecting k-means ) 的 聚 类 算法 。 本 章 的 最 后 会 给 出 一 个 实例 ， 该 实例 应 用 二 分 K- 均 值 
算法 来 寻找 同时 造访 多 个 夜生活 热点 地 区 的 最 佳 停车 位 。 


10.1 K- 均 值 聚 类 算法 


A 


. K- 均 值 素 类 
优点 : 容易 实现 。 
缺点 : 可 能 收敛 到 局 部 最 小 值 ， 在 大 规模 数据 集 上 收敛 较 慢 。 
适用 数据 类 型 ， 数值 型 数据 。 


K- 均 值 是 发 现 给 定数 据 集 的 个 侯 的 算法 。 簇 个 数 k 是 用 户 给 定 的 ， 每 一 个 侯 通 过 其 质心 
( centroid )， 即 复 中 所 有 点 的 中 心 来 描述 。 
K- 均 值 算法 的 工作 流程 是 这 样 的。 首先 ， 随 机 确定 个 初始 点 作为 质心 。 然 后 将 数据 集中 的 
每 个 点 分 配 到 一 个 能 中 ,具体 来 讲 ， 为 每 个 点 找 距 其 最 近 的 质心 ， 并 将 其 分 配给 该 质心 所 对 应 的 
簇 。 这 一 步 完成 之 后 ， 每 个 簇 的 质心 更 新 为 该 包 所 有 点 的 平均 什 。 
上 述 过 程 的 伪 代 码 表示 如 下 ; 
创建 k 个 点 作为 起 始 质心 ( 经 常 是 随机 选择 ) 
当 任 意 一 个 点 的 雍 分 配 结 果 发 生 政变 时 
对 数据 集中 的 每 个 数据 点 
”对 每 个 质心 
计算 质心 与 数据 点 之 间 的 距离 
将 数据 点 分 配 到 距 其 最 近 的 徐 
对 每 一 个 效 ， 计 算 答 中 所 有 点 的 均值 并 将 均值 作为 质心 
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人 :.K: 均 入 六 类 的 二 般 流 和 | 
(1) 收集 数据 ， 使 用 任意 方法 。 

(2) 准备 数据 ; 需要 数值 型 数据 来 计算 距离 ， 也 可 以 将 标 称 型 数据 映射 为 二 值 型 数据 再 用 
于 距离 计算 。 

(3) 分 析 数 据 : 使 用 任意 方法 

(4) 训练 算法 : 不 适用 于 无 监督 学 习 ， 即 无 监督 学 习 没有 训练 过 程 。 

(5) 测试 算法 :应 用 聚 类 算法 、 观 察 结果 。 可 以 使 用 量化 的 误差 指标 如 误差 平方 和 ( 后面 
会 介绍 ) 来 评价 算法 的 结果 

(6) 使 用 算法 : 可 以 用 于 所 希望 的 任何 应 用 。 通 常情 况 下 ， 禾 质心 可 以 代表 整个 组 的 数据 
来 做 出 决策 。 


上 面 提 到 “最 近 ” 质 心 的 说 法 ， 意 味 着 需要 进行 某 种 距离 计算 。 读 者 可 以 使 用 所 喜欢 的 
任意 距离 度量 方法 。 数 据 集 上 -均值 算 法 的 性 能 会 受到 所 选 距 离 计 算 方 法 的 影响 。 下 面 给 出 
KK- 均值 算法 的 代码 实现 。 首 先 创建 一 个 名 为 kMeans.py 的 文件 ， 然 后 将 下 面 程序 清单 中 的 代码 


添加 到 文件 中 。 
程序 清单 10-1 KK- 均 值 聚 类 支持 函数 


from numpy import * 


def loadDataSet (fileName): 

dataMat = [] 

fr = open (fileName) 

for line in fr.readlines(): 
curLine = line,.strip() .split('\t') 
fltLine = map (float,curLine) 
dataMat .append (fltLine) 

return dataMat 





def distEclud(vecA, vecB): 
return sqrt(sum(power(vecA - vecB, 2))) 


def randCent (dataSet, k): 
n = shape (dataSet) [1] 
centroids = mat (zeros{ (k,n))) Fe 构建 策 质 心 
for j in zange (mn) : 
minJ = min(dataSet(:,j]) 
rangeJ = float(max(dataSet [:,j]) - minJ) 
centroids[:,j] = minJ + rangeJ * random.rand{k, 1) 
return centroids 


程序 清单 10-1 中 的 代码 包含 几 个 K- 均 值 算法 中 要 用 到 的 辅助 函数 。 第 一 个 函数 1oadpata- 
set () 和 上 一 章 完全 相同 , 它 将 文本 文件 导 人 到 一 个 列表 中 。 文 本 文件 每 一 行为 ab 分 隔 的 浮 点 数 。 
每 一 个 列表 会 被 添加 到 aataMat 中 ,最 后 返回 aataMat。 该 返回 值 是 一 个 包含 许多 其 他 列表 的 列 
表 。 这 种 格式 可 以 很 容易 将 很 多 值 封装 到 矩阵 中 。 
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下 一 个 函数 distEclua() 计 算 两 个 向 量 的 欧式 中 离 。 这 是 本 章 最 先 使 用 的 距离 函数 ， 也 可 
以 使 用 其 他 距离 函数 。 

最 后 一 个 函数 是 randcent () , 该 函数 为 给 定数 据 集 构 建 一 个 包含 k 个 随机 质心 的 集合 。 随机 
质心 必须 要 在 整个 数据 集 的 边界 之 内 ， 这 可 以 通过 找到 数据 集 每 一 维 的 最 小 和 最 大 值 来 完成 。 然 
后 生成 0 到 1.0 之 间 的 随机 数 并 通过 取 值 范围 和 最 小 值 ， 以 便 确 保 随 机 点 在 数据 的 边界 之 内 。 接 下 
来 看 一 下 这 三 个 函数 的 实际 效果 。 保 存 kMeans.py 文 件 ， 然 后 在 Python 提 示 符 下 输入 : 


>>> import kMeans 
>>> from numpy import * 


要 从 文本 文件 中 构建 矩阵 ， 输 入 下 面 的 命令 (第 10 章 的 源 代码 中 给 出 了 testSettxt 的 内 容 ): 

>>> datMat=mat (kMeans .loadDataSet ('testSet .txt') ) 

读者 可 以 了 解 一 下 这 个 二 维 矩 阵 ， 后 面 将 使 用 该 矩阵 来 测试 完整 的 K- 均 值 算法 。 下 面 看 看 
randCent () 函数 是 否 正常 运行 。 首 先 ， 先 看 一 下 矩阵 中 的 最 大 值 与 最 小 值 ， 


>>> min{datMat [:,0]) 
matrix([[-5.379713]]) 
>>> min(datMat [:,1])} 
matrix([{-4.232586]]) 
>>> max (datMat [:,1]) 
matrix([[ 5.1904]]) 

>>> max (datMat [:,0]) 
matrix([[ 4.838138]]) 


然后 看 看 randcent ( ) 函数 能 否 生成 min 到 max 之 间 的 值 : 


>>> kMeans.randCent (datMat, 2) 
matrix([[-3.24278889, -0.04213842]， 
[-0.92437171, 3.19524231]]) 


从 上 面 的 结果 可 以 看 到 ， 函 数 *andcent () 确 实 会 生成 min 到 max 之 间 的 值 。 上 述 结果 表明 ， 
这 些 函 数 都 能 够 按照 预想 的 方式 运行 。 最 后 测试 一 下 距离 计算 方法 : 


>>> kMeans.distEclud(datMat [01], datMat [1]) 
5.184632816681332 


所 有 支持 函数 正常 运行 之 后 , 就 可 以 准备 实现 完整 的 K- 均 值 算法 了 。 该 算法 会 创建 kt 个 质心， 
然后 将 每 个 点 分 配 到 最 近 的 质心 , 再 重新 计算 质心 。 这 个 过 程 重复 数 次 ， 直 到 数据 点 的 艇 分 配 结 
果 不 再 改变 为 止 。 打 开 kMeans.py 文 件 输入 下 面 程序 清单 中 的 代码 。 


旦 序 清单 10-2 ”KK- 均 值 聚 类 算法 


def kMeans (dataSet, k, distMeas=distEclud, createCent=randCent): 
m = shape (dataSset) [0] 
clusterAssment = mat (zeros((m,2))) 
centroids = createCent (dataSet, k) 
clusterChanged = True 
while clusterChanged: 
clusterChanged = False 
for i in range (m) : 
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minDist = inf; minIindex = -1 


for j in range(k): 寻找 最 近 的 质心 
QistJI = distMeas (centroids[j, :] ,dataset [i, :]) 


if distJI < minDist: 
minDist = distJI; minIindex = j 
if clusterAssment [1,01 != minIndex: clusterChanged = True 
clusterAssment [i,:] = minIindex,minDist**2 
print centroids 


更 新 质心 的 位 置 
for cent in range (k): 
ptsInClust = aataset [nonzero (clusterAssment [: ,01 .A==cent) {0}] 


centroids [cent,:] = mean(lptsInClust, axis=0) 
return centroids, clusterAssment 


上 述 清单 给 出 了 K- 均 值 算法 。kMeans () 函数 接受 4 个 输入 参数 。 只 有 数据 集 及 艇 的 数目 是 必 
选 参 数 ， 而 用 来 计算 距离 和 创建 初始 质心 的 函数 都 是 可 选 的 。kMeans () 函数 一 开始 确定 数据 集中 
数据 点 的 总 数 , 然后 创建 一 个 矩阵 来 存储 每 个 点 的 簇 分 配 结果 。 秘 分 配 结果 矩阵 clusterAssment 
包含 两 列 : 一 列 记录 簇 索 引 值 ， 第 二 列 存储 误差 。 这 里 的 误差 是 指 当前 点 到 簇 质心 的 距离 ,后边 
会 使 用 该 误差 来 评价 聚 类 的 效果 。 
按照 上 述 方式 ( 即 计算 质心 -分 配 -重新 计算 ) 反复 迭代 ， 直到 所 有 数据 点 的 簇 分 配 结果 不 再 
改变 为 止 。 程 序 中 可 以 创建 一 个 标志 变量 clusterchanged,， 如 果 该 值 为 rrue， 则 继续 迭代 。 
上 述 达 代 使 用 while 循 环 来 实现 。 接 下 来 遍历 所 有 数据 找到 距离 每 个 点 最 近 的 质心， 这 可 以 通过 
对 每 个 点 遍历 所 有 质心 并 计算 点 到 每 个 质心 的 距离 来 完成 @。 计 算 距 离 是 使 用 aistMeas 参 数 给 
出 的 距离 函数 , 默认 距离 函数 是 distEclud()， 该 函数 的 实现 已 经 在 程序 清单 10-1 中 给 出 。 如果 
任 一 点 的 侯 分 配 结果 发 生 改 变 ， 则 更 新 clusterchanged 标 志 。 
”” 最后, 遍历 所 有 质心 并 更 新 它们 的 取 值 @。 具体 实现 步骤 如 下 : 首先 通过 数组 过 滤 来 获得 给 
定 秘 的 所 有 点 ; 然后 计算 所 有 点 的 均值 ， 选 项 axis = 0 表示 沿 和 矩阵 的 列 方向 进行 均值 计算 ; 最 
后 ,程序 返回 所 有 的 类 质心 与 点 分 配 结果 。 图 10-1 给 出 了 一 个 聚 类 结果 的 示意 图 。 
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图 10-1 KK- 均 值 聚 类 的 结果 示意 图 。 图 中 数据 集 在 三 次 迭代 之 后 收敛 。 形状 相似 的 
数据 点 被 分 到 同样 的 篮 中 ， 灸 中 心 使 用 十 字 来 表示 
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接 下 来 看 看 程序 清单 10-2 的 运行 效果 。 保 存 kMeans .py 文件 后 ， 在 Python 提示 符 下 输入 : 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans.pyc'> 


如 果 没 有 将 前 面 例子 中 的 aatMat 数 据 复制 过 来 , 则 可 以 输入 下 面 的 命令 ( 记 住 要 导入 NumPy ): 

>>> datMat=mat (kMeans .lo0adDataSet ('testSet .txt')) 

现在 就 可 以 对 aatMat 中 的 数据 点 进行 聚 类 处 理 。 从 图 像 中 可 以 大 概 预先 知道 最 后 的 结果 应 
该 有 4 个 徐 ， 所 以 可 以 输入 如 下 命令 : 


>>> myCentroids, clustAssing = kMeans .kMeans (datMat , 4) 


[[-4.06724228 0.21993975] 
[ 0.73633558 -1.41299247] 
[-2.59754537. 3.15378974] 
[ 4.49190084 3.46005807]] 

[{-3.62111442 -2.36505947] 
[ 2.21588922 -2.88365904] 
[-2.38799628 2.96837672] 
[ 2.6265299 3.10868015]] 

[[-3.53973889 -2.89384326] 
[ 2.65077367 -2.79019029] 


[-2.46154315 2.78737555] 
[ 2.6265299 3.10868015]] 


上 面 的 结果 给 出 了 4 个 质心 。 可 以 看 到 ， 经 过 3 次 迭代 之 后 K- 均 值 算法 收敛 。 这 4 个 质心 以 及 
原始 数据 的 散 点 图 在 图 10-1 中 给 出 。 

到 目前 为 止 , 关于 聚 类 的 一 切 进 展 都 很 顺利 ,但 事情 并 不 总 是 如 此 。 接 下 来 会 讨论 K- 均 值 算 
法 可 能 出 现 的 问题 及 其 解决 办 法 。 


10.2 ”使 用 后 处 理 来 提高 聚 类 性 能 


前 面 提 到 , 在 K- 均 值 聚 类 中 簇 的 数目 是 一 个 用 户 预 先 定义 的 参数 , 那么 用 户 如 何 才能 知道 k 
的 选择 是 否 正 确 ? 如 何 才能 知道 生成 的 簇 比 较 好 呢 ? 在 包含 艇 分 配 结果 的 矩阵 中 保存 着 每 个 点 
的 误差 ， 即 该 点 到 簇 质心 的 距离 平方 值 。 下 面 会 讨论 利用 该 误差 来 评价 聚 类 质量 的 方法 。 

考虑 图 10-2 中 的 聚 类 结果 ， 这 是 在 一 个 包含 三 个 篮 的 数据 集 上 运行 K -均值 算 法 之 后 的 结果 ， 
但 是 点 的 簇 分 配 结果 值 没有 那么 准确 。K- 均 值 算法 收敛 但 聚 类 效果 较 差 的 原因 是 , K- 均 值 算法 收 
敛 到 了 局 部 最 小 值 ， 而 非 全 局 最 小 值 (局 部 最 小 值 指 结果 还 可 以 但 并 非 最 好 结果 ,全 局 最 小 值 是 
可 能 的 最 好 结果 )。 

一 种 用 于 度量 聚 类 效果 的 指标 是 SSE ( Sum of Squared Eror， 误 差 平 方 和 )， 对 应 程序 清单 10-2 
中 clusterassment 和 矩阵 的 第 一 丈 ij 之 和 。SSE 值 越 小 表示 数据 点 越 接近 于 它们 的 质心 ， 聚 类 效果 也 
越 好 。 因 为 对 误差 取 了 平方 ， 因 此 更 加 重视 那些 远离 中 心 的 点 。 一 种 肯定 可 以 降低 SSE 值 的 方法 是 
增加 簇 的 个 数 ， 但 这 违背 了 育 类 的 目标 。 育 类 的 目标 是 在 保持 艇 数目 不 变 的 情况 下 提高 牧 的 质量 。 

那么 如 何 对 图 10-2 的 结果 进行 改进 ? 你 可 以 对 生成 的 簇 进 行 后 处 理 , 一 种 方法 是 将 具有 最 大 
SSE 值 的 簇 划分 成 两 个 徐 。 具 体 实现 时 可 以 将 最 大 簇 包 含 的 点 过 滤 出 来 并 在 这 些 点 上 运行 K- 均 值 
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算法 ， 其 中 的 k 设 为 2。 
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图 10-2 ”由 于 质心 随机 初始 化 导致 K- 均 值 算法 效果 不 好 的 一 个 例子 ， 这 需要 额外 的 
后 处 理 操作 来 清理 聚 类 结果 


为 了 保持 艇 总 数 不 变 ， 可 以 将 某 两 个 侯 进 行 合并 。 从 图 10-2 中 很 明显 就 可 以 看 出 ， 应 该 将 图 
下 部 两 个 出 错 的 簇 质心 进行 合并 。 可 以 很 容易 对 二 维 数据 上 的 聚 类 进行 可 视 化 , 但 是 如 果 遇 到 40 
维 的 数据 应 该 如 何 去 做 ? 

有 两 种 可 以 量化 的 办 法 : 合并 最 近 的 质心 ， 或 者 合并 两 个 使 得 SSE 增 幅 最 小 的 质心 。 第 一 种 
思路 通过 计算 所 有 质心 之 间 的 距离 ,然后 合并 距离 最 近 的 两 个 点 来 实现 。 第 二 种 方法 需要 合并 两 
个 艇 然后 计算 总 SSE 值 。 必 须 在 所 有 可 能 的 两 个 秘 上 重复 上 述 处 理 过 程 ， 直 到 找到 合并 最 佳 的 两 
个 徐 为 止 。 接 下 来 将 讨论 利用 上 述 艇 划分 技术 得 到 更 好 的 隧 类 结果 的 方法 。 


10.3 二 分 K- 均 值 算法 


为 克服 -均值 算法 收敛 于 局 部 最 小 值 的 问题 ， 有 人 提出 了 另 一 个 称 为 二 分 K- 均 值 bisecting 
K-means ) 的 算法 。 该 算法 首先 将 所 有 点 作为 一 个 徐 ， 然 后 将 该 簇 一 分 为 二 。 之 后 选择 其 中 一 个 
艇 继续 进行 划分 ， 选 择 哪 一 个 徐 进 行 划分 取决 于 对 其 划分 是 否 可 以 最 大 程度 降低 SSE 的 值 。 上 述 
基于 SSE 的 划分 过 程 不 断 重复 ， 直 到 得 到 用 户 指定 的 复数 目 为 止 。 

二 分 -均值 算法 的 伪 代 码 形式 如 下 : 


将 所 有 点 看 成 一 个 答 
当 徐 数目 小 于 [时 
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对 于 每 一 个 于 
计算 总 误差 


在 给 定 的 徐 上 面 进行 K- 均 值 聚 类 (〔 太 2 ) 
计算 将 该 徐 一 分 为 二 之 后 的 总 误差 
选择 使 得 误差 最 小 的 那个 得 进行 划分 操作 
另 一 种 做 法 是 选择 SSE 最 大 的 侯 进 行 划分 ， 直 到 复数 目 达到 用 户 指定 的 数目 为 止 。 这 个 做 法 


听 起 来 并 不 难 实现 。 下 面 就 来 看 一 下 该 算法 的 实际 效果 。 打 开 kMeans.py 文 件 然后 加 入 下 面 程序 
清单 中 的 代码 。 


程序 清单 10-3 ”二 分 K- 均 值 聚 类 算法 
def biKmeans (dataSet, k, distMeas=distEclud): 

m = shape (dataset) [0] 
clusterAssment = mat (zeros{ (m,2))) 
centroid0 = mean(dataSet, axis=0) .tolist () [0] 四 创建 一 个 初始 簇 
centList = [centroid0] 
for j in range (m) : 

clusterAssment[j,1} = distMeas (mat (centroid0), dataSset [j,:])**2 
while (len(centList) < k): 

lowestSsE = inf 

for i in range{len(centList)): 


PtsInCurrCluster =\ 尝试 划分 
dataSet [nonzero (clusterRssment [:,0] .A==i) [0],:] 每 一 簇 
centroidMat, splitClustAss = \ 


kMeans (ptsInCurrCluster, 2 , distMeas) 
SSeSplit = sum(splitClustAss[:,1]) 
sseNotSsplit = \ 
sum(clusterAssment [nonzero (clusterAssment [:,0] .A!=i) [0] ,1]) 
print "sseSplit, and notSplit: ",sseSplit,sseNotSplit 
if (sseSplit + sseNotSplit) < lowestSSB: 
bestCentToSplit = i 
bestNewCents = centroidMat 
bestClustAss = splitClustAss.copy() 
lowestSSE = gseSplit + sseNotSplit 
bestClustAss [nonzero (bestClustAss[:,0] .A == 1) [0] ,0] =\ 
len (centList) 
bestClustRss {nonzero (bestClustAss[:,0] .A == 0) [0] ,0] =\ 
bestCentToSplit 
print 'the bestCentToSplit is: ',bestCentToSplit 
print 'the len of bestClustAss is: ', len(bestClustAss) 
centList[bestCentToSplit] = bestNewCents{[0,:] 
centList.append (bestNewCents [1,:]) 
clusterAssment [nonzero(clusterAssment [:,0] .A == 
bestCentToSplit) [0] ,:]= bestClustAss 
return mat (centList), clusterAssment 


上 述 程序 中 的 函数 与 程序 清单 10-2 中 函数 kMeans () 的 参数 相同 。 在 给 定数 据 集 、 所 期 望 的 
复数 目 和 距离 计算 方法 的 条 件 下 ， 函 数 返回 聚 类 结果 。 同 kxMeans () 一 样 ， 用 户 可 以 改变 所 使 用 
的 距离 计算 方法 。 
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该 函数 首先 创建 一 个 矩阵 来 存储 数据 集中 每 个 点 的 簇 分 配 结果 及 平方 误差 , 然后 计算 整个 数 
据 集 的 质心 ， 并 使 用 一 个 列表 来 保留 所 有 的 质心 @。 得 到 上 述 质 心 之 后 ， 可 以 遍历 数据 集中 所 有 
点 来 计算 每 个 点 到 质心 的 误差 值 。 这 些 误差 值 将 会 在 后 面 用 到 。 

接 下 来 程序 进入 while 循 环 , 该 循环 会 不 停 对 簇 进 行 划 分 ， 直到 得 到 想 要 的 艇 数目 为 止 。 可 
以 通过 考察 簇 列表 中 的 值 来 获得 当前 簇 的 数目 。 然后 遍历 所 有 的 徐 来 决定 最 佳 的 簇 进 行 划分 。 为 
此 需要 比较 划分 前 后 的 SSE。 一 开始 将 最 小 SSE 置 设 为 无 穷 大 ， 然后 遍历 复 列 表 centList 中 的 每 
一 个 饶 。 对 每 个 灸 ， 将 该 秘 中 的 所 有 点 看 成 一 个 小 的 数据 集 ptsIncurrcluster 。 将 
ptsinCcurrcluster 输 入 到 函数 kMeans () 中 进行 处 理 (k= 2)。 了 -均值 算法 会 生成 两 个 质心 
( 秘 ), 同时 给 出 每 个 秘 的 误差 值 @。 这 些 误差 与 剩余 数据 集 的 误差 之 和 作为 本 次 划分 的 误差 。 如 
果 该 划分 的 SSE 值 最 小 ， 则 本 次 划分 被 保存 。 一 旦 决定 了 要 划分 的 徐 ， 接 下 来 就 要 实际 执行 划分 
操作 。 划 分 操作 很 容易 ， 只 需要 将 要 划分 的 篮 中 所 有 点 的 篮 分 配 结果 进行 修改 即 可 。 当 使 用 
kMeans () 函数 并 且 指定 复数 为 2 时 , 会 得 到 两 个 编号 分 别 为 0 和 1 的 结果 艇 。 需要 将 这 些 复 编号 修 
改 为 划分 艇 及 新 加 秘 的 编号 ,该 过 程 可 以 通过 两 个 数组 过 滤器 来 完成 @。 最 后 ,新 的 徐 分 配 结果 
被 更 新 ， 新 的 质心 会 被 添加 到 centList 中 。 

当 while 循 环 结束 时 ， 同 kMeans () 函数 一 样 ， 函数 返回 质心 列表 与 能 分 配 结果 。 

下 面 看 一 下 实际 运行 效果 。 将 程序 清单 10-3 中 的 代码 添加 到 文件 kMeans.py 并 保存 ， 然 后 在 
Python 提 示 符 下 输入 : 


>>> reload (kMeans) 
<module 'kMeans' from 'kMeans.py'> 


可 以 在 最 早 的 数据 集 上 运行 上 述 过 程 ， 也 可 以 通过 如 下 命令 来 导入 图 10-2 中 那个 “ 较 难 ”的 
数据 集 : 

>>> datMat3=mat (kMeans .loadDataSet ('testSet2 .txt')) 

要 运行 函数 pikmeans () ,输入 如 下 命令 : 

>>> centList,myNewAssments=kMeans .bikmeans (datMat3, 3) 

sseSplit, and notSplit: 491.233299302 0.0 

the bestCentToSplit is: 0 

the len of bestClustAss is: 60 

ssesplit, and notSplit: 75.5010709203 35.9286648164 

sseSsplit, and notSsplit: 21.40716341 455.304634485 


the bestCentToSplit is: 0 
the len of bestClustAss is: 40 


现在 看 看 质心 结果 : 
>>> centList 


{matrix([[-3.05126255, 3.2361123 ]]), matrix([[-0.28226155, -2.4449763 ]]), 
matrix([[ 3.1084241, 3.0396009]1)] 


上 述 函 数 可 以 运行 多 次 ， 聚 类 会 收敛 到 全 局 最 小 值 ， 而 原始 的 kMeans () 函数 偶尔 会 陷入 局 
部 最 小 值 。 图 10-3 给 出 了 数据 集 及 运行 bikmeans () 后 的 的 质心 的 示意 图 。 





示例 :对 于 地 理 数据 应 用 三 分 K- 均 伪 算 法 5- | 
(1) 收集 数据 : 使 用 Yahool PlaceFinder API 收 集 数 据 。 | 
(2) 准备 数据 只 保留 经 纬度 信息 。 
(3) 分 析 数 据 ; 使 用 Matplotlib 来 构建 一 个 二 维 数据 图 ， 其 中 包含 徐 与 地 图 。 
(4) 训练 算法 : 训练 不 适用 无 监督 学 习 。 
(5) 测试 算法 : 使 用 10.4 节 中 的 biKmeans () 函数 。 
(6) 使 用 算法 ;最 后 的 输出 是 包含 符 及 竹中 心 的 地 图 。 
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图 10-3 ”运行 二 分 K- 均 值 算法 后 的 簇 分配 示意 图 ， 该 算法 总 是 产生 较 好 的 聚 类 结果 


前 面 已 经 运行 了 二 分 K- 均 值 算法 , 下面 将 该 算法 应 用 于 一 些 真实 的 数据 集 上 。 下 一 节 将 和 
地 图 上 的 地 理 位 置 坐 标 进 行 聚 类 。 。 下 一 节 将 利用 


10.4 示例 : 对 地 图 上 的 点 进行 聚 类 


假如 有 这 样 一 种 情况 : 你 的 朋友 Drew 希 望 你 带 他 去 城 里 庆祝 他 的 生日 。 由 于 其 
尔 8 也 一 些 朋 友 

也 会 过 来 ， 所 以 需要 你 提供 一 个 大 家 都 可 行 的 计划 。Drew 给 了 你 一 些 他 希望 去 的 地 址 。 这 个 地 
址 列表 很 长 ， 有 70 个 位 置 。 我 把 这 个 列表 保存 在 文件 portland-Clubs.txt 中 ， 该 文件 和 源 代码 一 起 
打包 。 这 些 地 址 其 实 都 在 俄勒冈 州 的 波 特 兰 地 区 。 

也 就 是 说 , 一 晚上 要 去 70 个 地 方 ! 你 要 决定 一 个 将 这 些 地 方 进行 聚 类 的 最 佳 策略 ， 这 样 训 
| 人 ! 些 ， 这 样 就 可 
a ee 然后 步行 到 每 个 复 内 地 址 。Drew 的 清单 中 虽然 给 出 了 地 址 
日 给 出 这 些 地 址 之 间 的 距离 远近 信息 。 因 此 ,你 要 得 到 每 个 地 址 的 纬 经 
这 些 地 址 进行 聚 类 以 安排 你 的 行程 。 / 人 
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你 需要 一 个 服务 来 将 地 址 转换 为 纬度 和 经 度 。 幸 运 的 是 ,雅虎 提供 了 这 样 的 服务 。 下 面 将 介 
绍 Yahoo! PlaceFinder API 的 使 用 方法 。 然 后 ， 对 给 出 的 地 址 坐标 进行 聚 类 ， 最 后 画 出 所 有 点 以 及 
簇 中 心 ， 并 看 看 聚 类 结果 到 底 如 何 。 


| 10.4.1 Yahoo! PlaceFinder API 


雅虎 的 牛人 们 已 经 为 我 们 提供 了 一 个 免费 的 地 址 转换 API， 该 API 对 给 定 的 地 址 返回 该 地 址 
对 应 的 纬度 与 经 度 。 访 问 下 面 的 URL 可 以 了 解 更 多 细节 : http://developer.yahoo.com/geo/ 
placefinder/guide/。 

为 了 使 用 该 服务 , 需要 注册 以 获得 一 个 API key。 具体 地 , 你 需要 在 Yahoo! 开 发 者 网 络 ( http:// 
developer.yahoo.com/ ) 中 进行 注册 。 创建 一 个 桌面 应 用 后 会 获得 一 个 appid。 需 要 appid 来 使 用 
geocoder。 一 个 geocoder 接 受 给 定 地 址 ， 然 后 返回 该 地 址 对 应 的 经 纬度 。 下 面 的 代码 将 上 述 所 有 
过 程 进行 了 封装 处 理 。 打 开 kMeans.py 文 件 ， 然 后 加 入 下 列 代 码 。 


程序 清单 10-4 Yahoo! PlaceFinder API 


import urllib 
import json 
def geoGrabl{lstAddress, city): 
apiStem = 'http://where.yahooapis.com/geocode?' 


params = {} 二 将 返回 类 型 设 为 JSON 
params{['flags'] = 'J' 

params['appid'] = 'pPP68N8t' 

params ['location’] = '%s %s' % (stAddress, city) 


url_ params = urllib.urlencode (params) 
yahooApi = apiStem + url params 
print yahooApi 

c=urllib.urlopen (yahooApi) 

return json.loads(c.read!()) 


= 打印 输出 的 的 URL 


from time import sleep 
def massPlaceFind (fileName): 
fw = openl('places.txt', ‘''w') 
for line in open(fileName) .readlines{(): 
line = line.strip!() 
lineArr = line.split('\t') 
retDict = geoGrap(lineArr[1]}, lineArr[2]) 
if retDict['ResultSet'] {'Error'] == 0: 
lat = float (retDict['ResultSet'] ['Results'] [0] ['latitude']) 
lng = float (retDict['ResultSet'] {'Results'] [0] ['longitude']) 
print "%s\t%f\ts$f" 和 (lineArr[0], lat, lng) 
fw.write('%s\t%f\t%sf\n' $ (line, lat, lng)) 
else: print "error fetching" 
Sleep (1) 
fw.close() 


上 述 程序 包含 两 个 函数 : geoGrab () 与 massPlaceFind()。 函 数 geoGrab() 从 Yahoo!l 返 回 
一 个 字典 ，massPlaceFind() 将 所 有 这 些 封装 起 来 并 且 将 相关 信息 保存 到 文件 中 。 
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在 函数 geoGrab () 中 ， 首 先 为 Yahoo API 设 置 apistem， 然 后 创建 一 个 字典 。 你 可 以 为 字典 
设置 不 同 值 ， 包 括 f1ags = J， 以 便 返回 JSON 格 式 的 结果 人 @。( 不 用 担心 你 不 熟悉 JSON， 它 是 
一 种 用 于 序列 化 数组 和 字典 的 文件 格式 ， 本 书 不 会 看 到 任何 JSON。JSON 是 JavaScript Object 
Notation 的 缩写 ， 有 兴趣 的 读者 可 以 在 wwwjson.org 找 到 更 多 信息 。) 接 下 来 使 用 urllib 的 
urlencode () 函数 将 创建 的 字典 转换 为 可 以 通过 URL 进 行 传递 的 字符 串 格式 。 最 后 ， 打 开 URL 
读 取 返 回 值 。 由 于 返回 值 是 JSON 格 式 的 ， 所 以 可 以 使 用 JSON 的 Python 模块 来 将 其 解码 为 一 个 字 
典 。 一 旦 返回 了 解码 后 的 字典 ， 也 就 意味 着 你 成 功 地 对 一 个 地 址 进行 了 地 理 编 码 。 

程序 清单 10-4 中 的 第 二 个 函数 是 massPlaceFinad() 。 该 函数 打开 一 个 tab 分 隔 的 文本 文件 , 获取 
第 2 列 和 第 3 列 结果 。 这 些 值 被 输入 到 函数 geoGrab () 中 ， 然 后 需要 检查 geoGrab ( ) 的 输出 字典 判断 
有 没有 错误 。 如 果 没 有 错误 ， 就 可 以 从 字典 中 读 取经 纬度 。 这 些 值 被 添加 到 原来 对 应 的 行 上 ， 同 时 
写 到 一 个 新 的 文件 中 。 如 果 有 错误 ， 就 不 需要 去 抽取 纬度 和 经 度 。 最 后 ， 调 用 sleep () 函数 将 
massPlaceFind() 函数 延迟 1 秒 。 这 样 做 是 为 了 确保 不 要 在 短 时 间 内 过 于 频繁 地 调用 API。 如果 频 繁 
调用 ， 那 么 你 的 请 求 可 能 会 被 封 掉 ， 所 以 将 nassPlaceFind () 函数 的 调用 延迟 一 下 比较 好 。 

保存 kMeans.py 文 件 后 ， 在 Python 提示 符 下 输入 ; 


>>> reload (kMeans) 
<moGule 'kMeans' from 'kMeans.py'> 


要 尝试 geoGrab， 输 入 街道 地 址 和 城市 的 字符 串 ， 比 如 ; 


>>> geoResults=kMeans.geoGrab('1 VA Center', 'Augusta, ME') 
http://where.yahooapis.com/ 
geocode?flags=J&location=1+VA+tCenter+Augusta%$2C+ME&appid=ppP68N6Ek 


实际 使 用 的 URL 会 被 打印 出 来 , 通过 这 些 URL, 用 户 可 以 看 到 具体 发 生 了 什么 。 如 果 并 不 想 
看 到 URL， 那 么 将 程序 清单 10-4 中 的 print 语 句 注释 掉 也 没关系 。 下 面 看 一 下 返回 结果 ， 应 该 是 
一 个 很 大 的 字典 。 


>>> geoResults 

{u'ResultSset': {u'Locale': u'us_US', u'ErrorMessage': u'No error’', 
u'Results': [{u'neighborhood': u'', u'house': u'1l', u'county': u'Kennebec 
County', u'street': u'Center St', u'radius': 500, u'iquality': 85, u'unit': 
u'', u'city': u'Augusta', u'countrycode': u'US', u'woeid': 12759521, 
u'xstreet': u'', u'line4': u'United States', u'line3':; u'', u'line2'.: 
u'Augusta, ME 04330-6410', u'linel': u'l1l Center St', u'state': u'Maine', 
u'latitude!': u'44.307661', u'hash': u'B8BE9FS5EE764C449', uiunittype': u’'', 
u'offsetlat': u'44.307656', u'statecode': u'ME', u'postal': u'04330-6410', 
urname:: u'', u'uzip': u'04330', u'country': u'United States', 
u'longitude': u'-69.776608', u'countycode': u'', u'offsetlon': u'- 
69.776528',uUu'woetype': 11})], u'version': u'1.0', u'Error': 0, u'Found': 1, 
u'Quality': 87}} 


上 面 给 出 的 是 一 部 只 包含 键 Resultset 的 字典 ,该 字典 又 包含 分 别 以 Locale、Error- 
Message、 Results、 version、 Error、 Found 和 Quality 为 键 的 其 他 字典 。 

读者 可 以 看 一 下 所 有 这 些 键 的 内 容 ， 不 过 我 们 主要 感 兴趣 的 还 是 Error 和 Results。 

Error 键 值 给 出 的 是 错误 编码 。0 意 昧 着 没有 错误 ,其 他 任何 值 都 代表 没有 获得 要 找 的 地 址 。 
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可 以 输入 下 面 内 容 以 获得 错误 编码 ; 


>>> geoResults['Resultset'] ['Error'] 
0 


现在 看 一 下 纬度 和 经 度 ， 可 以 输入 如 下 命令 来 实现 : 


>>> geoResults['ResultSet'] {'Results'] [0] ['longitude'] 
u'-69.776608， 

>>> geoResults['ResultSet'] {'Results'] [0] ['latitude'] 
ul'44.307661， 


上 面 给 出 的 都 是 字符 串 ， 可 以 使 用 float ( ) 函数 将 它们 转换 为 浮 点 数 。 下 面 看 看 在 多 行 上 的 
运行 效果 ， 输 入 命令 执行 程序 清单 10-4 中 的 第 二 个 函数 : 


>>> kMeans.massPlaceFind{('portlandClubs .txt') 


Dolphin II 45.486502 -122.788346 
Magic Garden 45.524692 -122.674466 
Mary's Club 45.535101 -122.667390 
Montego's 45.504448 -~122.500034 


这 会 在 你 的 工作 目录 下 生成 一 个 称 为 places txt 的 文本 文件 。 接 下 来 将 使 用 这 些 点 进行 聚 类 ， 
并 将 俱乐部 以 及 它们 的 做 中 心 画 在 城市 地 图 上 。 


10.4.2 ”对 地 理 坐 标 进行 聚 类 


现在 我 们 有 一 个 包含 格式 化 地 理 坐 标的 列表 , 接 下 来 可 以 对 这 些 俱乐部 进行 聚 类 。 在 此 过 程 
中 使 用 Yahool PlaceFinder API 来 获得 每 个 点 的 纬度 和 经 度 。 下 面 需要 使 用 这 些 信 息 来 计算 数据 点 
与 艇 质心 的 距离 。 

这 个 例子 中 要 到 类 的 俱乐部 给 出 的 信息 为 经 度 和 维度 , 但 这 些 信息 对 于 距离 计算 还 不 够 。 在 
北极 附近 每 走 几米 的 经 度 变 化 可 能 达到 数 10 度 ; 而 在 赤道 附近 走 相同 的 距离 ， 带 来 的 经 度 变化 可 
能 只 是 零点 几 。 可 以 使 用 球面 余弦 定理 来 计算 两 个 经 纬度 之 间 的 距离 。 为 实现 距离 计算 并 将 聚 类 
后 的 俱乐部 标识 在 地 图 上 ， 打 开 kMeans.py 文 件 ， 添 加 下 面 程序 清单 中 的 代码 。 


程序 清单 10-5 ”球面 距离 计算 及 簇 绘图 函数 
def distSLC (vecaA, vecB): 
a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180) 
b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * \ 
cos (Pi * (vecB[0,0]-vecA[0,0]) /180) 
return arccos (a + b)*6371.0 
import matplotlib 
import matplotlib.pyplot as plt 
def clusterClubs (numClust=5): 
datList = [] 
for line in open('places.txt') .readlines(): 
lineArr = line.split{('\t') 
datList.append([float (lineArr[4]), float (lineArr[{3])]) 
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datMat = mat (datList) 
myCentroids, clustAssing = bikmeans (datMat, numClust, \ 
distMeas=distSLC) 
‘fig = plt.figure() 
rect=[0.1,0.1,0.8,0.8] 
scatterMarkers=['s', '0', '^', '8', 'p', \ 
1Q14， 1V1， ih', +t>!, 1<1] 
axprops = dict (xticks=[], yticks=[]) 
ax0=fig.add axes (rect, label='ax0', **axprops) 
imgP = plt.imread('Portland.png') 
ax0 .imshow (imgP) 
axl=fig.add axes (rect, label='axl', frameon=Falgse) 
for i in range (numClust): 
ptsIinCurrCluster = datMat [nonzero (clustAssing[:,01.A==i) [0],:] 
markerStyle = scatterMarkers[i % len(scatterMarkers)] 
axl.scatter (ptsIinCurrCluster{:,0] .flatten() .A[0],\ 
ptsinCurrCluster[:,1] .flatten() .A[0],\ 
marker=markerStyle, s=90) 
axl.scatter (myCentroids[:,0] .flatten() .A[0],\ 
myCentroids{:,1] .flatten() .A[0], marker='+', 85=300) 
plt .show() 


上 述 程 序 清单 包含 两 个 函数 。 第 一 个 函数 aistsLc () 返回 地 球 表 面 两 点 之 间 的 距离 。 第 二 个 
函数 clusterclubs () 将 文本 文件 中 的 俱乐部 进行 聚 类 并 画 出 结果 。 

函数 aistsLc () 返 回 地 球 表面 两 点 间 的 距离 ， 单位 是 英里 。 给 定 两 个 点 的 经 纬度 , 可 以 使 用 
球面 余弦 定理 来 计算 两 点 的 距离 。 这 里 的 纬度 和 经 度 用 角度 作为 单位 ， 但 是 sin() 以 及 cos () 以 
弧度 为 输入 。 可 以 将 角度 除 以 180 然 后 再 乘 以 圆周 率 pi 转换 为 弧度 。 导 人 NumPy 的 时 候 就 会 导 
人 pio 

第 二 个 函数 clusterclubs () 只 有 一 个 参数 ， 即 所 希望 得 到 的 复数 目 。 该 函数 将 文本 文件 的 

解析 、 聚 类 以 及 画图 都 封装 在 一 起 ， 首 先 创建 一 个 空 列表 ， 然后 打开 places.txt 文 件 获取 第 4 列 和 
第 5 列 ， 这 两 列 分 别 对 应 纬度 和 经 度 。 基于 这 些 经 纬度 对 的 列表 创建 一 个 矩阵 。 接 下 来 在 这 些 数 
据点 上 运行 bixmeans () 并 使 用 aistsLc () 函数 作为 聚 类 中 使 用 的 距离 计算 方法 。 最 后 将 簇 以 及 
簇 质心 画 在 图 上 。 

为 了 画 出 这 些 侯 ， 首 先 创建 一 幅 图 和 一 个 矩形 ， 然后 使 用 该 矩形 来 决定 绘制 图 的 哪 一 部 分 。 
接 下 来 构建 一 个 标记 形状 的 列表 用 于 绘制 散 点 图 。 后 边 会 使 用 唯一 的 标记 来 标识 每 个 簇 。 FS 
使 用 imread() 函数 基于 一 幅 图 像 来 创建 算 阵 @， 然后 使 用 imshow () 绘 制 该 矩阵 。 接 下 来 ,在 同 
一 幅 图 上 绘制 一 张 新 的 图 ， 这 允许 你 使 用 两 套 坐标 系统 并 且 不 做 任何 缩放 或 偏 移 。 紧 接着 ,过 历 
每 一 个 簇 并 将 它们 一 一 画 出 来 。 标记 类 型 从 前 面 创建 的 scatterMarkers 列 表 中 得 到 。 使 用 索引 
i $$ len (scatterMarkers) 来 选择 标记 形状 ， 这 意味 着 当 有 更 多 簇 时 ， 可 以 循环 使 用 这 些 标 
记 。 最 后 使 用 十 字 标 记 来 表示 簇 中 心 并 在 图 中 显示 。 

下 面 看 一 下 实际 效果 ， 保存 kMeans.py 并 在 Python 提 示 符 下 输入 如 下 命令 : 


.9 基于 图 像 创建 矩阵 
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>>> reload (kMeans) 

<module 'kMeans' from 'kMeans.py'> 

>>> kMeans.clusterClubs (5) 

sseSplit, and notSplit: 3073.83037149 0.0 
the bestCentToSplit is: 0 


sseSplit, and notSsplit: 307.687209245 1118.08909015 
the bestCentToSplit is: 3 
the len of bestClustAss is: 25 


执行 上 面 的 命令 后 ， 会 看 到 与 图 10-4 类 似 的 一 个 图 。 
45.65 r 
45.60- | 
45.55 - 
45.50 - 


45.45 - 


45.40- | .i 
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10-4 “对 俄勒冈 州 波 特 兰 市 夜生活 娱乐 地 点 的 聚 类 结果 


可 以 尝试 输入 不 同 复数 目 得 到 程序 运行 的 效果 。 什 么 数目 比较 好 呢 ? 读者 可 以 思考 一 下 这 
个 问题 。 


10.5 ”本 章 小 结 


聚 类 是 一 种 无 监督 的 学 习 方法 。 所 谓 无 监督 学 习 是 指 事先 并 不 知道 要 寻找 的 内 容 , 即 没有 目 
标 变量 。 聚 类 将 数据 点 归 到 多 个 焦 中 ,其 中 相 他 数据 点 处 于 同一 秘 ， 而 不 相似 数据 点 处 于 不 同 能 
中 。 聚 类 中 可 以 使 用 多 种 不 同 的 方法 来 计算 相似 度 。 

一 种 广泛 使 用 的 聚 类 算法 是 K- 均 值 算法 ， 其 中 十 用 户 指定 的 要 创建 的 艇 的 数目 。K- 均 值 聚 
类 算法 以 个 随机 质心 开始 。 算 法 会 计算 每 个 点 到 质心 的 距离 。 每 个 点 会 被 分 配 到 距 其 最 近 的 访 
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质心 ， 然 后 紧 接着 基于 新 分 配 到 艇 的 点 更 新 能 质心 。 以 上 过 程 重复 数 次 ， 直到 簇 质 心 不 再 改变 。 
这 个 简单 的 算法 非常 有 效 但 是 也 容易 受到 初始 秘 质 心 的 影响 。 为 了 获得 更 好 的 聚 类 效果 ， 可 以 使 
用 另 一 种 称 为 二 分 K- 均 值 的 聚 类 算法 。 二 分 K- 均 值 算法 首先 将 所 有 点 作为 一 个 能 ， 然后 使 用 K- 
均值 算法 (上 = 2 ) 对 其 划分 。 下 一 次 迭代 时 ， 选 择 有 最 大 误差 的 簇 进行 划分 。 该 过 程 重复 直到 k 
个 入 创建 成 功 为 止 。 二 分 K- 均 值 的 聚 类 效果 要 好 于 K- 均 值 算 法 。 

K- 均 值 算法 以 及 变形 的 K- 均 值 算法 并 非 仅 有 的 聚 类 算法 , 另外 称 为 层次 聚 类 的 方法 也 被 三 泛 
使 用 。 下 一 章 将 介绍 在 数据 集中 查找 关联 规则 的 Apriori 算 法 。 














使 用 Apriori 人 进行 关联 
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本 章 内 容 
口 Apriori 算 法 
口 频繁 项 集 生成 
” 口 关联 规则 生成 
口 投票 中 的 关联 规则 发 现 


在 去 杂货 店 买 东西 的 过 程 ， 实 际 包含 了 许多 机 器 学 习 的 当前 及 未 来 应 用 ， 这 包括 物品 的 
展示 方式 、 购 物 之 后 优惠 券 的 提供 以 及 用 户 忠诚 度 计划 ， 等 等 。 它 们 都 离 不 开 对 大 量 数据 的 
分 析 。 商 店 希 望 从 顾客 身上 获得 尽 可 能 多 的 利润 ， 所 以 他 们 必然 会 利用 各 种 技术 来 达到 这 一 
目的 。 

忠诚 度 计划 是 指 顾客 使 用 会 员 卡 可 以 获得 一 定 的 折扣 , 利用 这 种 计划 ， 商 店 可 以 了 解 顾客 所 
购买 的 商品 。 即 使 顾客 不 使 用 会 员 卡 ， 商 店 也 会 查看 顾客 购买 商品 所 使 用 的 信用 卡 记 录 。 如 果 顾 
客 不 使 用 会 员 卡 而 使 用 现金 付 账 , 商店 则 可 以 查看 顾客 一 起 购买 的 商品 ( 如 果 想 知道 商店 所 使 用 
的 更 多 技术 ， 请 参考 Stephen Baket 写 的 The Numerati 一 书 )。 

通过 查看 哪些 商品 经 常 在 一 起 购买 , 可 以 帮助 商店 了 解 用 户 的 购买 行为 。 这 种 从 数据 海洋 中 
抽取 的 知识 可 以 用 于 商品 定价 、 市 场 促销 、 存 货 管理 等 环节 。 从 大 规模 数据 集中 寻找 物品 间 的 隐 
含 关系 被 称 作 关 联 分 析 ( association analysis ) 或 者 关联 规则 学 习 (association rule learning )。 这 
里 的 主要 问题 在 于 , 寻找 物品 的 不 同 组 合 是 一 项 十 分 耗 时 的 任务 ， 所 需 的 计算 代价 很 高 ， 蛮 力 搜 
索 方法 并 不 能 解决 这 个 问题 , 所 以 需要 用 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 项 集 。 本 章 
将 介绍 如 何 使 用 Aprior 算 法 来 解决 上 述 问题 。 

下 面 首先 详细 讨论 关联 分 析 ， 然 后 讨论 Apriori 原 理 ， Apriori 算 法 正 是 基于 该 原 理 得 到 的 。 接 
下 来 创建 函数 频繁 项 集 高 效 发 现 的 函数 , 然后 从 频繁 项 集中 抽取 出 关联 规则 。 本章 最 后 给 出 两 个 
例子 ， 一 个 是 从 国会 投票 记录 中 抽取 出 关联 规则 ， 另 一 个 是 发 现 毒 蘑菇 的 共同 特征 。 
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11.1 关联 分 析 


了 el 
优点 : 易 编 码 实 现 。 
缺点 : 在 大 数据 集 上 可 能 较 慢 。 
适用 数据 类 型 ， 数值 型 或 者 标 称 型 数据 。 


关联 分 析 是 一 种 在 大 规模 数据 集中 寻找 有 趣 关 系 的 任务 。 这 些 关 系 可 以 有 两 种 形式 ; 频繁 项 
集 或 者 关联 规则 。 频 繁 项 集 ( frequent item sets ) 是 经 常 出 现在 一 块 的 物品 的 集合 ， 关联 规则 
(association rules ) 瞳 示 两 种 物品 之 间 可 能 存在 很 强 的 关系 。 下 面 会 用 一 个 例子 来 说 明 这 两 种 概念 。 
图 11-1 给 出 了 某 个 杂货 店 的 交易 清单 。 


交易 





， 芮 昔 

， 尿 布 ， 葡 敬酒 ， 垂 菜 
豆奶 ， 尿 布 ， 葡 葡 酒 ， 覆 汗 
， 豆 奶 ， 尿 布 ， 葡 敬酒 
， 豆 奶 ， 尿 布 ， 枪 汗 


图 11-1 一 个 来 自 Hole Foods 天 然 食 品 店 的 简单 交易 清单 


频繁 项 集 是 指 那些 经 常 出 现在 一 起 的 物品 集合 ， 图 11-1 中 的 集合 {葡萄酒 ， 尿 布 , 豆奶} 就 是 频 
繁 项 集 的 一 个 例子 ( 回想 一 下 ， 集 合 是 由 一 对 大 括号 “{ }” 来 表示 的 )。 从 下 面 的 数据 集中 也 可 
以 找到 诸如 尿布 一 葡萄 酒 的 关联 规则 。 这 意味 着 如 果 有 人 买 了 尿布 , 那么 他 很 可 能 也 会 买 葡萄 酒 。 
使 用 频繁 项 集 和 关联 规则 ， 商 家 可 以 更 好 地 理解 他 们 的 顾客 。 尽 管 大 部 分 关联 规则 分 析 的 实例 来 
自 零 售 业 ， 但 该 技术 同样 可 以 用 于 其 他 行业 ， 比 如 网 站 流量 分 析 以 及 医药 行业 。 





区 


尿布 与 中 满 ? 人 人 

关联 分 析 中 最 有 名 的 合子 是 “尿布 与 啤酒 *。 据 报道 ， 美国 中 西部 的 一 家 连锁 店 发 现 ， 男 

人 们 会 在 周 四 购买 尿布 和 啤酒 。 这 样 商店 实际 上 可 以 将 原 布 与 啤酒 放 在 一 决 ， 并 确保 在 周 四 全 
价 销售 从 而 获 利 。 当 然 ， 这 家 商店 并 没有 这 么 做 *。 


* DSS News, “Ask Dan! What is the true story about data mining, beer and diapers?” http://www.dssresources.com/ 
newsletters/66.php, retrieved March 28, 2011. 


应 该 如 何 定义 这 些 有 趣 的 关系 ? 谁 来 定义 什么 是 有 趣 ? 当 寻找 频繁 项 集 时 ,频繁 ( frequent ) 
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的 定义 是 什么 ? 有 许多 概念 可 以 解答 上 述 问题 ， 不 过 其 中 最 重要 的 是 支持 度 和 可 信和 度 。 

一 个 项 集 的 支持 度 (support ) 被 定义 为 数据 集中 包含 该 项 集 的 记录 所 占 的 比例 。 从 图 11-1 中 
可 以 得 到 ，{ 豆 奶 } 的 支持 度 为 45。 而 在 5 条 交易 记录 中 有 3 条 包含 {豆奶 ， 尿 布 }， 因 此 {豆奶 ， 尿 
布 } 的 支持 度 为 3/5。 支 持 度 是 针对 项 集 来 说 的 ， 因 此 可 以 定义 一 个 最 小 支持 度 ， 而 只 保留 满足 最 
小 支持 度 的 项 集 。 

可 信 度 或 置信 度 (confidence ) 是 针对 一 条 诸如 {尿布 } 一 {葡萄 酒 } 的 关联 规则 来 定义 的 。 这 
条 规则 的 可 信 度 被 定义 为 “支持 度 ({ 尿 布 , 葡萄 酒 })/ 支 持 度 ({ 尿 布 })”。 从 图 11-1 中 可 以 看 到 ， 由 
于 {尿布 , 葡萄酒 } 的 支持 度 为 3/5, 尿 布 的 支持 度 为 4/5, 所 以 “尿布 = 葡萄酒” 的 可 信和 度 为 3/4=0.75。 
这 意味 着 对 于 包含 “尿布 ”的 所 有 记录 ， 我 们 的 规则 对 其 中 75% 的 记录 都 适用 。 

支持 度 和 可 信和 度 是 用 来 量化 关联 分 析 是 否 成 功 的 方法 。 假 设想 找到 支持 度 大 于 0.8 的 所 有 项 
集 , 应 该 如 何 去 做 ? 一 个 办 法 是 生成 一 个 物品 所 有 可 能 组 合 的 清单 ,然后 对 每 一 种 组 合 统计 它 出 
现 的 频繁 程度 , 但 当 物 品 成 千 上 万 时 ， 上 述 做 法 非常 非常 慢 。 下 一 节 会 详细 分 析 这 种 情况 并 讨论 
Aprior 原 理 ， 该 原理 会 减少 关联 规则 学 习 时 所 需 的 计算 量 。 


11.2 ”Apriori 原理 


假设 我 们 在 经 营 一 家 商品 种 类 并 不 多 的 杂货 店 , 我 们 对 那些 经 常 在 一 起 被 购买 的 商品 非常 感 兴 
趣 。 我 们 只 有 4 种 商品 ， 商 品 0， 商 品 1， 商 品 2 和 商品 3。 那 么 所 有 可 能 被 一 起 购买 的 商品 组 合 都 有 
哪些 ? 这 些 商 品 组 合 可 能 只 有 一 种 商品 ， 比 如 商品 0， 也 可 能 包括 两 种 、 三 种 或 者 所 有 四 种 商品 。 
我 们 并 不 关心 某 人 买 了 两 件 商品 0 以 及 四 件 商 品 2 的 情况 ， 我 们 只 关心 他 购买 了 一 种 或 多 种 商品 。 


| 
(1) 收集 数据 : 使 用 任意 方法 。 
(2) 准备 数据 ;任何 数据 类 型 都 可 以 ， 因 为 我 们 只 保存 集合 。 
(3) 分 析 数 据 : 使 用 任意 方法 。 | 
(4) 训练 算法 : 使 用 Apriori 算 法 来 找到 频繁 项 集 。 
(5) 测试 算法 : 不 需要 测试 过 程 。 
”(6) 使 用 算法 用 于 发 现 频繁 项 集 以 及 物品 之 间 的 关联 规则 。 


图 11-2 显 示 了 物品 之 间 所 有 可 能 的 组 合 。 为 了 让 该 图 更 容易 懂 ， 图 中 使 用 物品 的 编号 0 来 取 
代 物 品 0 本 身 。 男 外 ， 图 中 从 上 往 下 的 第 一 个 集合 是 名 ， 表 示 空 集 或 不 包含 任何 物品 的 集合 。 物 
品 集合 之 间 的 连 线 表 明 两 个 或 者 更 多 集合 可 以 组 合 形成 一 个 更 大 的 集合 。 

前 面 说 过 ,我 们 的 目标 是 找到 经 常 在 一 起 购买 的 物品 集合 。 而 在 11.1 节 中 ， 我们 使 用 集合 的 
支持 度 来 度量 其 出 现 的 频率 。 一 个 集合 的 支持 度 是 指 有 多 少 比例 的 交易 记录 包含 该 集合 。 如 何 对 
一 个 给 定 的 集合 ， 比 如 {0,3} ， 来 计算 其 支持 度 ? 我 们 遍历 每 条 记录 并 检查 该 记录 包含 Oo 和 3， 如 
果 记 录 确 实 同时 包含 这 两 项 , 那么 就 增加 总 计数 值 。 在 扫描 完 所 有 数据 之 后 , 使 用 统计 得 到 的 总 
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数 除 以 总 的 交易 记录 数 ， 就 可 以 得 到 支持 度 。 上 述 过 程 和 结果 只 是 针对 单个 集合 {0,3}。 要 获得 
每 种 可 能 集合 的 支持 度 就 需要 多 次 重复 上 述 过 程 。 我 们 可 以 数 一 下 图 11-2 中 的 集合 数目 ， 会 发 现 
即使 对 于 仅 有 4 种 物品 的 集合 ， 也 需要 遍历 数据 15 次 。 而 随 着 物品 数目 的 增加 遍历 次 数 会 急剧 增 


“长 。 对 于 包含 NM 种 物品 的 数据 集 共 有 2x-_1 种 项 集 组 合 。 事 实 上 ， 出 售 10 000 或 更 多 种 物品 的 商店 


并 不 少见 。 即 使 只 出 售 100 种 商品 的 商店 也 会 有 1.26 x 10” 种 可 能 的 项 集 组 合 。 对 于 现代 的 计算 机 
而 言 ， 需 要 很 长 的 时 间 才 能 完成 运算 。 


i < 
Co em 
A 一 
四 四 
i 
了 


图 11-2 集合 {0，1，2，3} 中 所 有 可 能 的 项 集 组 合 


为 了 降低 所 需 的 计算 时 间 ， 研 究 人 员 发 现 一 种 所 谓 的 Apriori 原 理 。Aprior 原 理 可 以 帮 我 们 减 
少 可 能 感 兴 趣 的 项 集 。Apriori 原 理 是 说 如 果 某 个 项 集 是 频繁 的 ， 那 么 它 的 所 有 子 集 也 是 频繁 的 。 
对 于 图 11-2 给 出 的 例子 ， 这 意味 着 如 果 {0,1} 是 频繁 的 ,那么 {0} 、{1} 也 一 定 是 频繁 的 。 这 个 原理 
直观 上 并 没有 什么 帮助 ,但 是 如 果 反 过 来 看 就 有 用 了 ,也 就 是 说 如 果 一 个 项 集 是 非 频繁 集 , 那么 
它 的 所 有 超 集 也 是 非 频 繁 的 ( 如 图 11-3 所 示 )。 





| : : i : Ar 人 

apriori 在 拉丁 语 中指 “ 来 自 以 前 "。 当 定义 问题 时 ， 通常 会 使 用 知识 或 

称 作 “一 个 先 验 ”(apriori )。 在 贝 叶 斯 统计 中 ， 使 用 先 验 知识 作为 条 件 进行 推断 也 很 常见 。 先 
验 知 识 可 能 来 自 领 域 知识 、 先 前 的 一 些 测 量 结 果 ， 等 等 。 


在 图 11-3 中 ， 已 知 阴影 项 集 {2,3} 是 非 频繁 的 。 利 用 这 个 知识 ， 我 们 就 知道 项 集 {0,2,3}， 
{1,2,3} 以 及 {0,1,2,3} 也 是 非 频 繁 的 。 这 也 就 是 说 ， 一 日 计算 出 了 {2,3} 的 支持 度 ， 知 道 它 是 非 
频繁 的 之 后 ， 就 不 需要 再 计算 {0,2,3} 、{1,2,3} 和 {0,1,2,3} 的 支持 度 ， 因为 我 们 知道 这 些 集合 
不 会 满足 我 们 的 要 求 。 使 用 该 原理 就 可 以 避免 项 集 数目 的 指数 增长 ， 从 而 在 合理 时 间 内 计算 
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图 11-3 图 中 给 出 了 所 有 可 能 的 项 集 ， 其 中 非 频繁 项 集 用 灰色 表示 。 由 于 集合 {2,3} 是 非 频繁 的 ， 
因此 {0,2,3}、{1,2,3} 和 {0,1,2,3} 也 是 非 频 繁 的 ， 它 们 的 支持 度 根本 不 需要 计算 


下 一 节 将 介绍 基于 Apriori 原 理 的 Apriori 算 法 ， 并 使 用 Python 来 实现 ， 然 后 将 其 应 用 于 虚拟 商 
店 Hole Foods 的 数据 集 上 。 
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4 11.1 节 提 到 ， 关 联 分 析 的 目标 包括 两 项 :发现 频繁 项 集 和 发 现 关 联 规则 。 首 先 需 要 找到 频繁 
项 集 ， 然 后 才能 获得 关联 规则 。 本 节 将 只 关注 于 发 现 频繁 项 集 。 
Apriori 算 法 是 发 现 频繁 项 集 的 一 种 方法 。Apriori 算 法 的 两 个 输入 参数 分 别 是 最 小 支持 度 和 数 
据 集 。 该 算法 首先 会 生成 所 有 单个 物品 的 项 集 列表 。 接 着 扫描 交易 记录 来 查看 哪些 项 集 满足 最 小 
支持 度 要 求 , 那些 不 满足 最 小 支持 度 的 集合 会 被 去 掉 。 然 后 ， 对 剩 下 来 的 集合 进行 组 合 以 生成 包 
含 两 个 元 素 的 项 集 。 接 下 来 ,再 重新 扫描 交易 记录 ， 去 掉 不 WD 该 过 程 重复 
进行 直到 所 有 项 集 都 被 去 掉 。 


11.3.1 生成 候选 项 集 


在 使 用 Python 来 对 整个 程序 编码 之 前 ， 需 要 创建 一 些 辅助 函数 。 下 面 会 创建 一 个 用 于 构建 初 
始 集合 的 函数 , 也 会 创建 一 个 通过 扫描 数据 集 以 寻找 交易 记录 子 集 的 函数 。 数 据 集 扫描 的 伪 代码 
大 致 如 下 ， 


对 数据 集中 的 每 条 交易 记录 tran 

对 每 个 候选 项 集 can: 
检查 一 下 can 是 否 是 tran 的 子 集 : 
如 果 是 ， 则 增加 can 的 计数 值 
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对 每 个 候选 项 集 : 
如 果 其 支持 度 不 低 于 最 小 值 ， 则 保留 该 项 集 
返回 所 有 频繁 项 集 列表 


下 面 看 一 下 实际 的 运行 效果 ， 建 立 一 个 apriori.py 文 件 并 加 入 下 列 代码 。 
程序 清单 11-1 Aprior 算 法 中 的 辅助 函数 


def LoadpataSet () : 
return [[1，3，4]，[2，3，5]，[1，2，3，5]，[2，5]] 


def createCl (dataSet): 
Ci = [] 
for transaction in dataSet: 
for item in transaction: 
if not [item] in C1: 
Cl.append( [item] ) 


C1.Sort () = 对 C1 中 每 个 项 构建 


2 栾 储 余 
return map (ftrozenset ，C1l) 个 不 变 集合 


def scanD(D, Ck, minSupport): 
sscnt = {} 
for tid in D: 
for can in Ck: 
if can.issubset (tid): 
if not ssCnt.has key (can): ssCnt [can] =1 
else: SSCnt [canj += 1 
numItems = float {len(D)) 
retList = {] 
supportData = {} 
for key in ssCnt: 
support = sscnt [key] /numItems 
if support >= minSupport: 
retList,.insert (0,key) 
supportDatal{key] = support 
return retList, supportData 


上 述 程序 包含 三 个 函数 。 第 一 个 函数 lo0adpataset () 创建 了 一 个 用 于 测试 的 简单 数据 集 ， 
另外 两 个 函数 分 别 是 createc1 () 和 scanD()。 

不 言 自 名 ， 函 数 createc1 () 将 构建 集合 cl1。c1 是 大 小 为 1 的 所 有 候选 项 集 的 集合 。Apriori 
算法 首先 构建 集合 c1 ,然后 扫描 数据 集 来 判断 这 些 只 有 一 个 元 素 的 项 集 是 否 满足 最 小 支持 度 的 要 
求 。 那 些 满 足 最 低 要 求 的 项 集 构成 集合 LDL1。 而 21 中 的 元 素 相互 组 合 构成 Cc2 ，c2 再 进一步 过 滤 变 
为 L2。 到 这 里 ， 我 想 读 者 应 该 明白 了 该 算法 的 主要 思路 。 

因此 算法 需要 一 个 函数 createc1 () 来 构建 第 一 个 候选 项 集 的 列表 c1。 由 于 算法 一 开始 是 从 输 
入 数据 中 提取 候选 项 集 列表 , 所 以 这 里 需要 一 个 特殊 的 函数 来 处 理 , 而 后 续 的 项 集 列表 则 是 按 一 定 
的 格式 存放 的 。 这 里 使 用 的 格式 就 是 Python 中 的 frozenset 类 型 。frozenset 是 指 被 “冰冻 ”的 集合 ,就 
是 说 它们 是 不 可 改变 的 ， 即 用 户 不 能 修改 它们 。 这 里 必须 要 使 用 frozenset 而 不 是 set 类 型 ， 因为 之 后 
必须 要 将 这 些 集合 作为 字典 键 值 使 用 ， 使 用 ffozenset 可 以 实现 这 一 点 ， 而 set 却 做 不 到 。 

首先 创建 一 个 空 列 表 c1, 它 用 来 存储 所 有 不 重复 的 项 值 。 接 下 来 遍历 数据 集中 的 所 有 交易 记 


.9 计算 所 有 项 集 的 支持 度 
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录 。 对 每 一 条 记录 ， 遍 有 历 记录 中 的 每 一 个 项 。 如 果 某 个 物品 项 没有 在 cl 中 出 现 ， 则 将 其 添加 到 
ci 中 。 这 里 并 不 是 简单 地 添加 每 个 物品 项 ， 而 是 添加 只 包含 该 物品 项 的 一 个 列表 ”。 这 样 做 的 目 
的 是 为 每 个 物品 项 构建 一 个 集合 。 因 为 在 Apriori 算 法 的 后 续 处 理 中 ,需要 做 集合 操作 。Python 不 
能 创建 只 有 一 个 整数 的 集合 ， 因此 这 里 实现 必须 使 用 列表 (有 兴趣 的 读者 可 以 试 一 下 )。 这 就 是 
我 们 使 用 一 个 由 单 物品 列表 组 成 的 大 列表 的 原因 。 最 后 ， 对 大 列表 进行 排序 并 将 其 中 的 每 个 单元 
素 列表 映射 到 frozenset ()， 最 后 返回 frozenset 的 列表 @。 

程序 清单 11-1 中 的 第 二 个 函数 是 scanD () ， 它 有 三 个 参数 ， 分 别 是 数据 集 ck、 包 含 候选 集合 
的 列表 以 及 感 兴趣 项 集 的 最 小 支持 度 minSupport。 该 函数 用 于 从 c1 生 成 L1。 另 外 ,该 函数 会 返 
回 一 个 包含 支持 度 值 的 字典 以 备 后 用 。scanD() 函数 首先 创建 一 个 空 字典 sscnt ， 然 后 遍历 数据 
集中 的 所 有 交易 记录 以 及 cl 中 的 所 有 候选 集 。 如 果 c1 中 的 集合 是 记录 的 一 部 分 ， 那 么 增加 字典 
中 对 应 的 计数 值 。 这 里 字典 的 键 就 是 集合 。 当 扫描 完 数据 集中 的 所 有 项 以 及 所 有 候选 集 时 ,就 需 
要 计算 支持 度 。 不 满足 最 小 支持 度 要 求 的 集合 不 会 输出 。 函数 也 会 先 构 建 一 个 空 列表 , 该 列表 包 
含 满足 最 小 支持 度 要 求 的 集合 。 下 一 个 循环 遍历 字典 中 的 每 个 元 素 并 且 计 算 支持 度 @。 如 果 支 持 
度 满足 最 小 支持 度 要 求 ， 则 将 字典 元 素 添加 到 retList 中 。 可 以 使 用 语句 retList. 
insert (0, key) 在 列表 的 首部 插入 任意 新 的 集合 。 当然 也 不 一 定 非 要 在 首部 插入 ， 这 只 是 为 了 
让 列表 看 起 来 有 组 织 。 函 数 最 后 返回 最 频繁 项 集 的 支持 度 supportData， 该 值 会 在 下 一 节 中 
使 用 。 

下 面 看 看 实际 的 运行 效果 。 保 存 apriori.py 之 后 ， 在 Python 提 示 符 下 输入 : 

>>> import apriori 


然后 导 人 数据 集 : 


>>> dataSet=apriori.1loadDataSset () 
>>> dataset 
[1, 3, 4], [2, 3, 5], [1i, 2, 3, 5)], [2, 5]) 

之 后 构建 第 一 个 候选 项 集 集合 c1: 
>>> Cl=apriori.createC1 (dataSet) 
>>> C1 
[frozenset ({1]), frozenset([2]), frozenset ([3]), frozenset ([41), 

frozenset ([5])] 
可 以 看 到 ，c1 包 含 了 每 个 frozenset 中 的 单个 物品 项 。 下 面 构建 集合 表示 的 数据 集 D。 


>>> D=map (set,dataSet) 


>>> D 

[set([1，3，4])，set([2，3，5])，set([1，2，3，5])， set([2, 5])) 
有 了 集合 形式 的 数据 , 就 可 以 去 掉 那 些 不 满足 最 小 支持 度 的 项 集 。 对 上 面 这 个 例子 , 我 们 使 用 0.5 
作为 最 小 支持 度 水 平 ， 

>>> L1,suppData0=apriori.scanD(D, C1i, 0.5) 

>>> L1 

[frozenset ([1]), frozenset([3]), frozenset ([2]), frozenset ( [5])] 





Q@ 也 就 是 说 ，C1l 是 一 个 集合 的 集合 ， 如 {{0},{1},{2},…} ， 每 次 添加 的 都 是 单个 项 构成 的 集合 {0} 、{1}、{2}…。 





11.3 使 用 Apriori 算法 来 发 现 频繁 集 207 





上 述 4 个 项 集 构成 了 L1 列 表 ， 该 列表 中 的 每 个 单 物品 项 集 至 少 出 现在 50% 以 上 的 记录 中 。 由 
于 物品 4 并 没有 达到 最 小 支持 度 ， 所 以 没有 包含 在 L1 中 。 通过 去 掉 这 件 物品 ， 减 少 了 查找 两 物品 
项 集 的 工作 量 。 


11.3.2 ”组 织 完整 的 Apriori 算法 
整个 Apriori 算 法 的 伪 代 码 如 下 : 
当 集合 中 项 的 个 数 大 于 0 时 
构建 一 个 k 个 项 组 成 的 候选 项 集 的 列表 
检查 数据 以 确认 每 个 项 集 都 是 频繁 的 
保留 频繁 项 集 并 构建 kt1 项 组 成 的 候选 项 集 的 列表 
既然 可 以 过 小 集合 ， 那么 就 能 够 构建 完整 的 Apriori 算 法 了 6 打开 apriori.py 文 件 加 入 如 下 程序 
清单 中 的 代码 。 


程序 清单 11-2 ”Aprioti 算 法 
def aprioriGen (Lk, k) : #creates Ck 
retList = [] 
lenLk = len(Lk) 
for i in range (lenLk): 
1 in range (i+1，1enbk) : 

和 = ab {:k-2]; 12 = list (Lk{j}) [:k-21 ' 前 k-2 个 项 相同 时 ， 
L1.sort(); L2.sort() 将 两 个 集合 合 
if Li==L2: 

retList.append (Lk[i] | Lk[j]) 
return retbList 


def apriori (dataset, minSupport = 0.5); 
C1 = createCl (dataSet) 
D = maplset, dataset) 
L1, supportDpata = scanD{(D, C1, minSsupport) 
,= {L1] 
k=2 
while (len{(L[k-2]) > 0): 
ck = aprioriGen (L{k-2], Kk) 
Lk, supK = ScanD(D， Ck, minSupport) 
supportData.update (supK) 
L.append (Lk) 
k += 1 
return Lb, supportData 


程序 清单 11-2 包 含 两 个 函数 aprioriGen() 号 apriori() 。 其 中 主 函 数 是 apriori ()， 它 会 
调用 aprioriGen () 来 创建 候选 项 集 ck。 
函数 aprioriGen() 的 输入 参数 为 频繁 项 集 列表 Lk 与 项 集 元 素 个 数 k， 输出 为 ck。 举例 来 说 ， 
该 函数 以 {0} 、{1}、{20 作 为 输入 ， 会 生成 {0,1}、{0,2} 以 及 {1,2}。 要 完成 这 一 点 ， 首 先 创建 一 个 
空 列表 ， 然后 计算 uk 中 的 元 素数 目 。 接 下 来 ， 比较 ux 中 的 每 一 个 元 素 与 其 他 元 素 ， 这 可 以 通过 


二 扫描 数据 集 ， 从 Ck 得 到 Lk 
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两 个 for 循 环 来 实现 。 紧 接着 ， 取 列表 中 的 两 个 集合 进行 比较 。 如 果 这 两 个 集合 的 前 面 k-2 个 元 
素 都 相等 ， 那 么 就 将 这 两 个 集合 合成 一 个 大 小 为 k 的 集合 @@。 这 里 使 用 集合 的 并 操作 来 完成 ， 在 
Python 中 对 应 操作 符 | 。 

上 面 的 x-2 有 点 让 人 疑惑 。 接 下 来 再 进一步 讨论 细节 。 当 利用 {0}、{1}、{2} 构 建 {0,1}、{0,2}、 
{1,2} 时 ， 这 实际 上 是 将 单个 项 组 合 到 一 块 。 现 在 如 果 想 利用 {0,1}、 {0,2}、 { 人 2} 来 创建 三 元 素 
项 集 ， 应 该 怎么 做 ? 如 果 将 每 两 个 集合 合并 ,就 会 得 到 {0, 1,2}、 {0, 1,2}、 {0, 1,2}。 也 就 是 说 ， 
同样 的 结果 集合 会 重复 3 次 。 接 下 来 需要 扫描 三 元 素 项 集 列 表 来 得 到 非 重复 结果 ， 我 们 要 做 的 是 
确保 遍历 列表 的 次 数 最 少 。 现 在 ， 如 果 比 较 集 合 {0.1} 、{0,2}、 和 ,2} 的 第 1 个 元 素 并 只 对 第 1 个 元 
素 相同 的 集合 求 并 操作 ， 又 会 得 到 什么 结果 ? {0, 1, 2} ， 而 且 只 有 一 次 操作 ! 这 样 就 不 需要 遍历 
列表 来 寻找 非 重复 值 。 

上 面 所 有 的 操作 都 被 封装 在 apriori () 函数 中 。 给 该 函数 传递 一 个 数据 集 以 及 一 个 支持 度 ， 
函数 会 生成 候选 项 集 的 列表 ， 这 通过 首先 创建 c1 然 后 读 人 数据 集 将 其 转化 为 D (集合 列表 ) 来 完 
成 。 程 序 中 使 用 map 函 数 将 set () 映射 到 dataset 列 表 中 的 每 一 项 。 接 下 来 ， 使 用 程序 清单 11-1 
中 的 scanD () 函数 来 创建 1， 并 将 1L1 放 人 列表 L 中 。L 会 包含 1、L2、L3,…。 现 在 有 了 L1， 后 面 
会 继续 找 D2，L3.…， 这 可 以 通过 while 循 环 来 完成 ,， 它 创建 包含 更 大 项 集 的 更 大 列表 ,直到 下 一 
个 大 的 项 集 为 空 。 如 果 这 听 起 来 让 人 有 点 困惑 的 话 ， 那 么 等 一 下 你 会 看 到 它 的 工作 流程 。 首 先 使 
用 aprioriGen() 来 创建 ck， 然 后 使 用 scanp () 基于 ck 来 创建 Dk。ck 是 一 个 候选 项 集 列表 ， 然 
后 scanD () 会 遍历 ck， 委 掉 不 满足 最 小 支持 度 要 求 的 项 集 @@。Lk 列 表 被 添加 到 L， 同 时 增加 k 的 
值 ， 重 复 上 述 过 程 。 最 后 ， 当 Lk 为 空 时 ， 程 序 返 回 DL 并 退出 。 

下 面 看 看 上 述 程序 的 执行 效果 。 保 存 apriori.py 文 件 后 ， 输 入 如 下 命令 ; 


>>> reload (apriori) 
<module :apriori' from 'apriori.pyc'> 


上 面 的 命令 创建 了 6 个 不 重复 的 两 元 素 集合 ， 下 面 看 一 下 Apriori 算 法 : 


>>> L,SsuppData=apriori .apriori (dataSet) 


为 
[[frozenset ([1}), frozenset ({3]), frozenset ([2]), frozenset([5])], 
[frozenset ({1, 3]), frozenset([2, 5]), frozenset ([2, 3}]), frozenset ([3, 5])], 
[frozenset ([2, 3, 5])], {}] 

iL 包含 满足 最 小 支持 度 为 0.5 的 频繁 项 集 列表 ， 下 面 看 一 下 具体 值 . 
>>> LI[0] 
[frozenset ( [1] ) frozenset([3]), frozenset ([2}), frozenset([5])] 
>>> LI[1] 
[frozenset ([1, 3]), frozenset ([2, 5]), frozenset ([2, 3]), 
frozenset {[3, 5])] 
>>> LI[2] 
[frozenset ([2, 3, 5})] 
>>> LI[3] 


[] 
每 个 项 集 都 是 在 函数 apriori () 中 调用 函数 aprioriGen () 来 生成 的 。 下 面 看 一 下 apriori Gen() 
函数 的 工作 流程 : 


11.4 从 频繁 项 集中 挖 据 关 联 规则 209 





>>> apriori.aprioriGen(L[0], 2) 
[frozenset ([1, 3]), frozenset ([1i, 2]), frozenset([1, 5]), 
frozenset ([2, 3]), frozenset([3, 5]), frozenset([2, 5])] 


这 里 的 6 个 集合 是 候选 项 集 ck 中 的 元 素 。 其 中 4 个 集合 在 L[1] 中 , 剩 下 2 个 集合 被 函数 scanp () 
过 滤 掉 。 
下 面 再 尝试 一 下 70% 的 支持 度 : 


>>> L,suppData=apriori .apriori(dataSet,minSupport=0.7) 
>>> 了 
[ [frozenset ([3])}, frozenset ({2]), frozenset ([5])], [frozenset([2，5])]，[]] 


变量 supppata 是 一 个 字典 ， 它 包含 我 们 项 集 的 支持 度 值 。 现 在 暂时 不 考虑 这 些 值 ， 不 过 下 
一 节 会 用 到 这 些 值 。 

现在 可 以 知道 哪些 项 出 现在 70% 以 上 的 记录 中 ， 还 可 以 基于 这 些 信息 得 到 一 些 结论 。 我 们 可 
以 像 许多 程序 一 样 利用 数据 得 到 一 些 结论 ， 或 者 可 以 生成 if-then 形 式 的 关联 规则 来 理解 数据 。 
下 一 节 会 就 此 展开 讨论 。 
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11.2 节 曾经 提 到 ， 可 以 利用 关联 分 析 发 现 许多 有 趣 的 内 容 。 人 们 最 常 寻找 的 两 个 目标 是 频繁 
项 集 与 关联 规则 。 上 一 节 介绍 如 何 使 用 Apriori 算 法 来 发 现 频繁 项 集 ， 现 在 需要 解决 的 问题 是 如 何 
找 出 关联 规则 。 

要 找到 关联 规则 , 我 们 首先 从 一 个 频繁 项 集 开始 。 我们 知道 集合 中 的 元 素 是 不 重复 的 ,但 我 
们 想 知道 基于 这 些 元 素 能 和 否 获得 其 他 内 容 。 某 个 元 素 或 者 某 个 元 素 集合 可 能 会 推导 出 另 一 个 元 
素 。 从 杂货 店 的 例子 可 以 得 到 ， 如 果 有 一 个 频繁 项 集 { 豆 奶 , 黄 苔 }， 那 么 就 可 能 有 一 条 关联 规 
则 “豆奶 = 万世"。 这 意味 着 如 果 有 人 购买 了 豆奶 ， 那 么 在 统计 上 他 会 购买 黄 芭 的 概率 较 大 。 
但 是 ,这 一 条 反 过 来 并 不 总 是 成 立 。 也 就 是 说 , 即使 “豆奶 一 万 莒 " 统计 上 显著 , 那么 “万 芭 一 
豆奶 ”也 不 一 定 成 立 。( 从 逻辑 研究 上 来 讲 ， 箭 头 左边 的 集合 称 作 前 件 ， 箭 头 右边 的 集合 称 为 
后 件 。) 

11.3 节 给 出 了 频繁 项 集 的 量化 定义 ， 即 它 满足 最 小 支持 度 要 求 。 对 于 关联 规则 ， 我 们 也 有 类 
似 的 量化 方法 ， 这 种 量化 指标 称 为 可 信和 度 。 一 条 规则 P ~ 了 的 可 信和 度 定义 为 support(P | 
H) /support (P) 。 记 住 , 在 Python 中 ， 操作 符 | 表 示 集 合 的 并 操作 ， 而 数学 上 集合 并 的 符号 是 UU。 
P | H 是 指 所 有 出 现在 集合 P 或 者 集合 H 中 的 元 素 。 前 面 一 节 已 经 计算 了 所 有 频繁 项 集 支 持 度 。 现 
在 想 获得 可 信和 度 ， 所 需要 做 的 只 是 取出 那些 支持 度 值 做 一 次 除法 运算 。 

从 一 个 频繁 项 集中 可 以 产生 多 少 条 关联 规则 ?图 11-4 的 网 格 图 给 出 的 是 从 项 集 {0,1,2,3} 产 生 
的 所 有 关联 规则 。 为 找到 感 兴趣 的 规则 , 我 们 先生 成 一 个 可 能 的 规则 列表 , 然后 测试 每 条 规则 的 
可 信和 度 。 如 果 可 信 度 不 满足 最 小 要 求 ， 则 去 掉 该 规则 。 
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图 11-4” 对 于 频繁 项 集 {0,1,2,3} 的 关联 规则 网 格 示意 图 。 阴影 区 域 给 出 的 是 低 可 信 度 的 规则 。 如 
果 发 现 0.1.2_3 是 一 条 低 可 信 度 规则 ， 那 么 所 有 其 他 以 3 作为 后 件 的 规则 可 信和 度 也 会 较 低 


类 似 于 上 一 节 的 频繁 项 集 生成 , 我 们 可 以 为 每 个 频繁 项 集 产生 许多 关联 规则 。 如 果 能 够 减少 
规则 数目 来 确保 问题 的 可 解 性 , 那么 计算 起 来 就 会 好 很 多 。 可 以 观察 到 ， 如 果 某 条 规则 并 不 满足 
最 小 可 信和 度 要 求 ;那么 该 规则 的 所 有 子 集 也 不 会 满足 最 小 可 信和 度 要 求 。 以 图 11-4 为 例 ， 假 设 规则 
0,1,2 一 3 并 不 满足 最 小 可 信 度 要 求 , 那么 就 知道 任何 左 部 为 {0,1,2} 子 集 的 规则 也 不 会 满足 最 小 可 
信和 度 要 求 。 在 图 11-4 中 这 些 规则 上 都 加 了 阴影 来 表示 。 

可 以 利用 关联 规则 的 上 述 性 质 属性 来 减少 需要 测试 的 规则 数目 。 类 似 于 程序 清单 11-2 中 的 
Apriori 算 法 ,可 以 首先 从 一 个 频繁 项 集 开 始 ,接着 创建 一 个 规则 列表 ， 其 中 规则 右 部 只 包含 一 个 
元 素 , 然后 对 这 些 规则 进行 测试 。 接 下 来 合并 所 有 剩余 规则 来 创建 一 个 新 的 规则 列表 ， 其 中 规则 
右 部 包含 两 个 元 素 。 这 种 方法 也 被 称 作 分 级 法 。 下 面 看 一 下 这 种 方法 的 实际 效果 ， 打 开 aprioripy 
文件 ， 加 入 下 面 的 代码 。 


程序 清单 11-3 ”关联 规则 生成 函数 
def genezrateRules (上 下， supportData, minConf=0.7): 
bigRuleList = [] 
for i in range(1I，1Len(LD) ) : 
for freqSet in D[Iil: 
H1 = ffrozenset ( [Item]) for item in freqSet] 
if (i > 1): 
rulesFromConseq (freqSet, H1, supportData, bigRuleLisgst,\ 
minConf) 


.9 只 获取 有 两 个 或 更 多 元 素 的 集合 


else: 
calcConf (freqSet, H1i, supportData, bigRuleList, minConf) 
return bigRuleList 


def calcConf (freqSet, H, supportData, brl, minConf=0.7) : 
prunedH = {] 
for conseq in H: 
conf = supportData [freqSet] /supportDatalfreqSet-conseq] 


11.4 ”从 频繁 项 集中 挖掘 关联 规则 211 








if conf >= minConf: 
print freqSet-conseq,'-->',conseq,'conf:',conf 
bri .append( (freqSet-conseq, conseq, conf)) 
prunedH.append (conseq) 
return prunedH 


def rulesFromConseq(freqSet, H, supportData, bri, minConf=0.7): 
m= len(H[0]) 
if (len(fredqSet) > (m + 1)): 


.9 尝试 进一步 合并 
Hmpl = aprioriGen(H, m + 1) 


Hmpl = calcConf (freqSet, Hmpl, supportData, brl, minConf) 
if (len(Hmp1i) > 1): 
rulesFromConseq (freqSet, Hmpl, supportData, bri, minConf) 


创建 Hm+1 条 新 候选 规则 


上 述 程序 中 包含 三 个 函数 。 第 一 个 函数 generateRules () 是 主 函 数 , 它 调用 其 他 两 个 函数 。 
其 他 两 个 函数 是 xulesFromconsea() 和 calcconf () ， 分 别 用 于 生成 候选 规则 集合 以 及 对 规则 
进行 评估 。 

函数 generateRules () 有 3 个 参数 ; 频繁 项 集 列 表 、 包 含 那些 频繁 项 集 支 持 数据 的 字典 、 最 
小 可 信和 度 阔 值 。 函 数 最 后 要 生成 一 个 包含 可 信和 度 的 规则 列表 , 后 面 可 以 基于 可 信和 度 对 它们 进行 排 
序 。 这 些 规 则 存放 在 bigRuleList 中 。 如 果 事 先 没有 给 定 最 小 可 信 度 的 阔 值 ， 那 么 默认 值 设 为 
0.7。generateRules () 的 另 两 个 输入 参数 正好 是 程序 清单 11-2 中 函数 apriori () 的 输出 结果 。 
该 函数 遍历 1 中 的 每 一 个 频繁 项 集 并 对 每 个 频繁 项 集 创建 只 包含 单个 元 素 集合 的 列表 H1。 因 为 无 
法 从 单元 素 项 集中 构建 关联 规则 ， 所 以 要 从 包含 两 个 或 者 更 多 元 素 的 项 集 开 始 规则 构建 过 程 @。 
如 果 从 集合 {0,1,2} 开 始 , 那么 HL 应 该 是 [{0},{},{23]。 如 果 频 繁 项 集 的 元 素数 目 超过 2, 那么 会 考 
虑 对 它 做 进一步 的 合并 。 具 体 合并 可 以 通过 函数 rulesFromCconseq() 来 完成 ， 后面 会 详细 讨论 
合并 过 程 。 如 果 项 集中 只 有 两 个 元 素 ， 那么 使 用 函数 calcconf () 来 计算 可 信和 度 值 。 

我 们 的 目标 是 计算 规则 的 可 信和 度 以 及 找到 满足 最 小 可 信 度 要 求 的 规则 。 所 有 这 些 可 以 使 用 函 
数 calcconf () 来 完成 ， 而 程序 清单 11-3 中 的 其 余 代 码 都 用 来 准备 规则 。 函 数 会 返回 一 个 满足 最 
小 可 信和 度 要 求 的 规则 列表 ， 为 了 保存 这 些 规 则 ， 需 要 创建 一 个 空 列表 prunedH。 接 下 来 ,遍历 H 
中 的 所 有 项 集 并 计算 它们 的 可 信 度 值 。 可 信和 度 计 算 时 使 用 supportData 中 的 支持 度数 据 。 通 过 
导入 这 些 支持 度数 据 ， 可 以 节省 大 量 计算 时 间 。 如 果 某 条 规则 满足 最 小 可 信和 度 值 ， 那么 将 这 些 规 
则 输出 到 屏幕 显示 。 通过 检查 的 规则 也 会 被 返回 , 并 被 用 在 下 一 个 函数 rulesFromCconseq() 中 。 
同时 也 需要 对 列表 br1 进 行 填充 ， 而 br1 是 前 面 通 过 检查 的 bigRuleList。 

为 从 最 初 的 项 集中 生成 更 多 的 关联 规则 ， 可 以 使 用 rulesFromConseq() 函数 。 该 函数 有 2 
个 参数 : 一 个 是 频繁 项 集 , 另 一 个 是 可 以 出 现在 规则 右 部 的 元 素 列表 H。 函 数 先 计算 H 中 的 频繁 集 
大 小 m@。 接 下 来 查看 该 频繁 项 集 是 否 大 到 可 以 移 除 大 小 为 m 的 子 集 。 如 果 可 以 的 话 ， 则 将 其 移 
除 。 可 以 使 用 程序 清单 11-2 中 的 函数 aprioriGen () 来 生成 H 中 元 素 的 无 重复 组 合 合 。 该 结果 会 
存储 在 Hmp1 中 ， 这 也 是 下 一 次 迭代 的 H 列 表 。Hmp1l 包 含 所 有 可 能 的 规则 。 可 以 利用 calcconf () 
来 测试 它们 的 可 信和 度 以 确定 规则 是 否 满足 要 求 。 如 果 不 止 一 条 规则 满足 要 求 ， 那 么 使 用 Hmp1 迭 
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代 调 用 函数 rulesFromConseq() 来 判断 是 否 可 以 进一步 组 合 这 些 规 则 。 
下 面 看 一 下 实际 的 运行 效果 ， 保 存 apriori. py 文件 ， 在 Python 提 示 符 下 输入 
>>> reload (apriori) 
module 'apriori' from 'apriori.py'> 
Now let's generate a set of frequent itemsets with a support of 0.5: 
>>> 1, suppData=apriori.apriori (dataSet,minSupport=0.5) 
>>> rules=apriori.generateRules (L, suppData, minConf=0 .7) 
>>> rules 


[(frozenset ([1]), frozenset ([3]}), 1.0), (frozenset ([5]), frozenset ({2]), 
1.0), (frozenset({2]), frozenset ([5]), 1.0)] 
frozenset ({1]) --> frozenset ( [3]) conf: 1.0 
frozenset ({5]) --> frozenset ([2]) conf: 1.0 
frozenset ([2]) --> frozenset{( [5]) conf: 1.0 


结果 中 给 出 三 条 规则 : {1} 一 8}、{5} 导 人 及 妇 陪 55}。 可 以 看 到 ， 后 两 条 包含 2 和 5 的 规则 
可 以 互 换 前 件 和 后 件 ， 但 是 前 一 条 包含 1 和 3 的 规则 不 行 。 下 面 降低 可 信 度 阔 值 之 后 看 一 下 结果 : 


>>> rules=apriori.generateRules (L, suppData, minConf=0.5) 





>>> rules 

[(frozenset ([3]), frozenset ([1]), 0.6666666666666666) ， {frozenset ( [1] ) ， 
frozenset ([3])，1.0) ， (frozenset ( [5] )， frozenset ([2]), 1.0), 
(frozenset ([21), frozenset ([5] ), 1.0), {frozenset ( [3]1), frozenset ( [2] ) ， 
0.6666666666666666)， (frozenset ({2]), frozenset ([3]), 0.6666666666666666) ， 
(frozenset ({5]) ， frozenset ( [3] ) ， 0.6666666666666666) ， (frozenset ( [3] ) ， 
frozenset ([5] ) ， 0.6666666666666666) ， (frozenset ({5]), frozenset ([2, 3]), 
0.6666666666666666)， (frozenset ([3]), frozenset ([2, 5]), 
0.6666666666666666) ， (frozenset ([2] )， frozenset ([3, 5]), 
0.6666666666666666) ] 


frozenset ([3]) --> frozenset( [1]) conf: 0.666666666667 
frozenset ( [1]) --> frozenset ( [3]) conf: 1.0 
frozenset ([5]) --> frozenset ({2]) conf: 1.0 
frozenset ([2]) --> frozenset([5]) conf: 1.0 
frozenset ({3]) --> frozenset([2]) conf: 0.666666666667 
frozenset ( [2]) --> frozenset ([3]) conf: 0.666666666667 
frozenset ([5]) --> frozenset ([3]) conf: 0.666666666667 
frozenset ([3]) --> frozenset([5]) conf: 0.666666666667 


frozenset ({5]) --> frozenset ([2， 3]) conf: 0.666666666667 
frozenset ([3]) --> frozenset ([2， 5]) conf: 0.666666666667 
frozenset ([2]) --> frozenset([3, 5]) conf: 0.666666666667 


一 旦 降低 可 信和 度 阐 值 ,就 可 以 获得 更 多 的 规则 。 到 现在 为 止 ， 我 们 看 到 上 述 程序 能 够 在 一 个 
小 数据 集 上 正常 运行 ， 接 下 来 将 在 一 个 更 大 的 真实 数据 集 上 测试 一 下 效果 。 具 体 地 ， 下 一 节 将 检 
查 其 在 美国 国会 投票 记录 上 的 处 理 效果 。 


11.5 “示例 ， 发 现 国会 投票 中 的 模式 


前 面 我 们 已 经 发 现 频繁 项 集 及 关联 规则 ， 现在 是 时 候 把 这 些 工具 用 在 真实 数据 上 了 。 那么 可 
以 使 用 什么 样 的 数据 呢 ? 购物 是 一 个 很 好 的 例子 , 但 是 前 面 已 经 用 过 了 。 另 一 个 例子 是 搜索 引擎 
中 的 查询 词 。 这 个 示例 听 上 去 不 错 ， 不 过 下 面 看 到 的 是 一 个 更 有 趣 的 美国 国会 议员 投票 的 例子 。 
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加 州 大 学 埃 文 分 校 的 机 器 学 习 数据 集合 中 有 一 个 自 1984 年 起 的 国会 投票 记录 的 数据 集 ; 
http://archive.ics.uci.edu/ml/datasets/Congressionalt+VotingtRecords。 这 个 数据 集 有 点 偏 旧 而 且 其 
中 的 议题 对 我 来 讲 意义 也 不 大 。 我 们 想 尝试 一 些 更 新 的 数据 。 目 前 有 不 少 组 织 致力 于 将 政府 数据 
公开 化 ， 其 中 的 一 个 组 织 是 智能 投票 工程 ( Project Vote Smart， 网 址 : http://www.votesmart.org ) 
它 提供 了 一 个 公共 的 API。 下 面 会 看 到 如 何 从 Votesmart.org 获 取 数 据 ， 并 将 其 转化 为 用 于 生成 频 
繁 项 集 与 关联 规则 的 格式 。 该 数据 可 以 用 于 竞选 的 目的 或 者 预测 政治 家 如 何 投票 。 


(1) 收集 数据 ; 使 用 votesmart 模 块 来 访问 投票 记录 。 J 
(2) 准备 数据 构造 一 个 函数 来 将 投票 转化 为 一 下 交易 记录 。 
. Mae 在 Python 提示 符 下 查看 准备 的 数据 以 确保 其 正确 性 。 
4) 训练 算法 : 使 用 本 章 apriori 亚 。 

的 在 赴 诈 进 - 章 早先 的 apriori () 和 generateRules () 函数 来 发 现 投票 记录 中 
(5) 测试 算法 : 不 适用 ， 即 没有 测试 过 程 。 : 
(6) 使 用 算法 :这 里 只 是 出 于 娱乐 的 目的 ， 不 过 也 可 以 使 用 分 析 结 果 来 为 政治 竞选 活动 服 
务 ， 或 者 预测 选举 官员 会 如 何 投票 。 










接 下 来 ， 我 们 将 处 理 投票 记录 并 创建 一 个 交易 数据 库 。 这 需要 一 些 创造 性 思维 | 
0 = ‘ 心 \-HFEo 最 后 》 
会 使 用 本 章 早 先 的 代码 来 生成 频繁 项 集 和 关联 规则 的 列表 。 


11.5.1 收集 数据 ， 构 建 美 国 国会 投票 记录 的 事务 数据 集 


智能 投票 工程 已 经 收集 了 大 量 的 政府 数据 ， 他 们 同时 提供 了 一 个 公开 的 API 来 访问 该 数据 
http://api.votesmart.org/docs/terms,html。Sunlight 实验 室 写 过 一 个 Python 模块 用 于 访问 该 数据 ， 该 
模块 在 https://github.com/sunlightlabs/python-votesmart 中 有 很 多 可 供 参 考 的 文档 。 下 面 要 从 美国 国 
会 获得 一 些 最 新 的 投票 记录 并 基于 这 些 数据 来 尝试 学 习 一 些 关 联 规则 。 

我 们 希望 最 终 数据 的 格式 与 图 11-1 中 的 数据 相同 ， 即 每 一 行 代 表 美国 国会 的 一 个 成 员 ， 而 每 列 
都 是 他 们 投票 的 对 象 。 接 下 来 从 国会 议员 最 近 投 票 的 内 容 开 始 。 如 果 没 有 安装 python-votesmart， 


a key， 那 么 需要 先 完成 这 两 件 事 。 关 于 如 何 安装 python-votesmart 可 以 参考 


要 使 用 votesmartAPI， 需 要 导 人 votesmart 模 块 ， 
>>> from votesmart import votesmart 


接 下 来 ， 输 入 你 的 API key”: 


>>> Vvotesmart .apikey = '49024thereoncewasamanfromnantucket94040'! 





@ 这 里 的 key 只 是 一 个 例子 。 你 需要 在 http://votesmart.org/share/api/register 申 请 自己 的 key。 
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现在 就 可 以 使 用 votesmartAPI 了 。 为 了 获得 最 近 的 100 条 议案 ， 输入: 
>>> bills = votesmart .votes.getBillsByStateRecent () 


为 了 看 看 每 条 议案 的 具体 内 容 ， 输 入 : 


>>> for bill in bills: 
print bill.title,bill.billId 


Amending FAA Rulemaking Activities 13020 

Prohibiting Federal Funding of National Public Radio 12939 
Additional Continuing Appropriations 12888 

Removing Troops from Afghanistan 12940 


"Whistlebiower Protection' for Offshore Oil Workers 11820 


读者 在 看 本 书 时 , 最 新 的 100 条 议案 内 容 将 会 有 所 改变 。 所 以 这 里 我 将 上 述 100 条 议案 的 标题 
及 ID 号 (billld ) 保存 为 recent100bills.txt 文 件 。 ， 

可 以 通过 getBi11() 方 法 ， 获 得 每 条 议案 的 更 多 内 容 。 比 如 ， 对 刚才 的 最 后 一 条 议案 
“Whistleblower Protection”， 其 ID 号 为 11820。 下 面 看 看 实际 结果 ， 

>>> bill = votesmart .votes.getBill (11820) 

上 述 命令 会 返回 一 个 BillDetail 对 象 ， 其 中 包含 大 量 完 整 信息 。 我 们 可 以 查看 所 有 信息 ， 
不 过 这 里 我 们 所 感 兴 趣 的 只 是 围绕 议案 的 所 有 行为 。 可 以 通过 输入 下 列 命 令 来 查看 实际 结果 : 

>>> bill.actions 

上 述 命 令 会 返回 许多 行为 , 议案 包括 议案 被 提出 时 的 行为 以 及 议案 在 投票 时 的 行为 。 我 们 对 
投票 发 生 时 的 行为 感 兴趣 ， 可 以 输入 下 面 命 令 来 获得 这 些 信息 : 

>>> for action in bill.actions: 

if action.stage=='Passage': 
print action.actionId 

ee 

上 述 信息 并 不 完整 ,一 条 议案 会 经 历 多 个 阶段 。 一 项 议案 被 提出 之 后 , 经 由 美国 国会 和 众 议 
院 投 票 通过 后 , 才能 进入 行政 办 公 室 。 其 中 的 Passage( 议案 通过 ) 阶段 可 能 存在 欺骗 性 ， 因 为 这 
有 可 能 是 行政 办 公 室 的 Passage 阶 段 ， 那 里 并 没有 任何 投票 。 

为 获得 某 条 特定 议案 的 投票 信息 ， 使 用 getBillActionVotes () 方 法 : 


>>> voteList = votesmart.votes.getBililActionVotes (31670) 


其 中 ，voteList 是 一 个 包含 vote 对 象 的 列表 。 输 入 下 面 的 命令 来 看 一 下 里 面包 含 的 内 容 : 


>>> voteList [22] 

Vote({u'action': u'No Vote', u'candidaterId': u'430', u'officeParties': 
u'Democratic', u'candidateName':; u'Berry, Robert'}) 

>>> voteList {21]) 

Vote({u'action': Uu'Yea', u'candidateId': u'26756', u'officeParties':: 
u'Democratic', u'candidateName': u'Berman, Howard! }) 
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现在 为 止 ， 我 们 已 经 用 过 这 些 相关 API， 可 以 将 它们 组 织 到 一 块 了 。 接 下 来 会 给 出 一 个 函数 
将 文本 文件 中 的 billrq 转 化 为 actionId。 如 前 所 述 ,并 非 所 有 的 议案 都 被 投票 过 ， 另 外 可 能 有 
一 些 议案 在 多 处 进行 了 议案 投票 。 也 就 是 说 需要 对 actionTa 进 行 过 滤 只 保留 包含 投票 数据 的 
actionId。 这 样 处 理 之 后 将 100 个 议案 过 滤 到 只 剩 20 个 议案 , 这 些 剩 下 的 议案 都 是 我 认为 有 趣 的 
议案 ， 它 们 被 保存 在 文件 recent20bills.txt 中 。 下 面 给 出 一 个 getActionIds() 图 数 来 处 理 
actionTds 的 过 滤 。 打 开 aprioripy 文 件 ， 输 入 下 面 的 代码 ?。 


= 3 Fa 、 4 
程序 清单 11-4 ”收集 美国 国会 议案 中 action ID 的 函数 
from time import sleep 
from votesmart import votesmart 
votesmart .apikey = '49024thereoncewasamanfromnantucket940401! 
def getActionIds{(): 


actionIdList = []; billTitleList = [] 
fr = openl('recent20bills.txt') 
for line in fr.readlines(): 
billNum = int (line.split('\t') [0]) 
try: 
billDetail = votesmart .votes.getBill (billNum) 
for action in billDetail.actions: 


if action.level == 'House' and \ 种 过 滤 出 包含 投票 的 行为 
(action.stage == 'Passage' or \ 
action.stage == 'Amendment Vote'): 


actionId = int(action.actionId) 

print 'bill: %d has actionId: %d' % (billNum, actionId) 

actionIdList .append (actionId) 

billTitleList.append (line.strip() .split ('\t') [1]) 
exCept : 


print "problem getting bill %d" % billNum 区 为 礼貌 访问 网 站 而 做 些 延迟 


sleep (1) 
return actionIdList, billTitleList 


上 述 程序 中 导 和 人 了 votesmart 模 块 并 通过 引入 sleep 函 数 来 延迟 API 调 用 。getRActionsIds () 
函数 会 返回 存储 在 recent20bills .txt 文件 中 议案 的 actionId。 程 序 先导 人 API key， 然 后 创建 两 个 
空 列表 。 这 两 个 列表 分 别 用 来 返回 actionsId 和 标题 。 首 先 打开 recent20bills.txt 文 件 ， 对 每 一 行内 不 
同 元 素 使 用 tab 进 行 分 隔 ， 之 后 进入 try-except 模 块 。 由 于 在 使 用 外 部 API 时 可 能 会 遇 到 错误 ， 
并 且 也 不 想 让 错误 占用 数据 获取 的 时 间 ， 上 述 try-except 模 块 调用 是 一 种 非常 可 行 的 做 法 。 所 
以 ,首先 尝试 使 用 getBi11 () 方 法 来 获得 一 个 bil1l1Detail 对 象 。 接 下 来 遍历 议案 中 的 所 有 行为 ， 
来 寻找 有 投票 数据 的 行为 @。 在 Passage 阶 段 与 Amendment Vote ( 修正 案 投 票 ) 阶段 都 会 有 投票 数 
据 , 要 找 的 就 是 它们 。 现 在 , 在 行政 级 别 上 也 有 一 个 Passage 阶 段 , 但 那个 阶段 并 不 包含 任何 投票 
数据 ， 所 以 要 确保 这 个 阶段 是 发 生 在 众议院 @。 如 果 确 实 如 此 ， 程 序 就 会 将 actionra 打 印 出 来 
并 将 它 添加 到 actionIdList 中 。 同 时 ， 也 会 将 议案 的 标题 添加 到 pillTitleList 中 。 如 果 在 
API 调 用 时 发 生 错 误 ， 就 不 会 执行 actionIgList 的 添加 操作 。 一 旦 有 错误 就 会 执行 except 模 块 





@ 不 要 忘 了 使 用 你 自己 的 API key 来 代替 例子 中 的 key! 
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并 将 错误 信息 输出 。 最 后 , 程序 会 休眠 1 秒 钟 ， 以 避免 对 Votesmart.org 网 站 的 过 度 频繁 访问 。 程序 
运行 结束 时 ，actionIdList 与 bi11TitleList 会 被 返回 用 于 进一步 的 处 理 。 
下 面 看 一 下 实际 运行 效果 。 将 程序 清单 11-4 中 的 代码 加 入 到 apriori.py 文 件 后 , 输入 如 下 命令 : 


>>> reload{apriori) 

<module 'apriori'! from 'apriori.py'> 

>>> actionIidList,billTitles = apriori.getActionIds{) 
bill: 12939 has actionId: 34089 

bill: 12940 has actionId: 34091 

bill: 12988 has actionId: 34229 


可 以 看 到 actionId 显 示 了 出 来 ， 它 同时 也 被 添加 到 actionIaList 中 输出 ， 以 后 我 们 可 以 使 
用 这 些 actionTda 了 。 如 果 程 序 运 行 错误 ， 则 尝试 使 用 Ery. . except 代 码 来 捕获 错误 。 我 自己 就 曾 
经 在 获取 所 有 actiondId 时 过 到 一 个 错误 。 接 下 里 可 以 继续 来 获取 这 些 actionIq 的 投票 信息 。 

选举 人 可 以 投 是 或 否 的 表决 票 , 也 可 以 弃权 。 需要 一 种 方法 来 将 这 些 上 述 信 息 转化 为 类 似 于 
项 集 或 者 交易 数据 库 之 类 的 东西 。 前 面 提 到 过 ， 一 条 交易 记录 数据 只 包含 一 个 项 的 出 现 或 不 出 现 
信息 ， 并 不 包含 项 出 现 的 次 数 。 基 于 上 述 投票 数据 ， 可 以 将 投票 是 或 否 看 成 一 个 元 素 。 

美国 有 两 个 主要 政党 ; 共和 党 与 民主 党 。 下 面 也 会 对 这 些 信息 进行 编码 并 写 到 事务 数据 库 中 。 
幸运 的 是 ,这些 信 息 在 投票 数据 中 已 经 包括 。 下 面 给 出 构建 事务 数据 库 的 流程 : 首先 创建 一 个 字 
典 , 字典 中 使 用 政客 的 名 字 作 为 键 值 。 当 某 政 客 首次 出 现时 ， 将 他 及 其 所 属 政党 ( 民主 党 或 者 共 
和 党 ) 添加 到 字典 中 , 这 里 使 用 0 来 代表 民主 党 , 1 来 代表 共和 党 。 下 面 介 绍 如 何 对 投票 进行 编码 。 
对 每 条 议案 创建 两 个 条 目 : bill+'Yea' 以 及 bill+'Nay'。 该 方法 允许 在 某 个 政客 根本 没有 投 
票 时 也 能 合理 编码 。 图 11-5 给 出 了 从 投票 信息 到 元 素 项 的 转换 结果 。 
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图 11-5 ”美国 国会 信息 到 元 素 (项 ) 编号 之 间 的 映射 示意 图 


现在 ， 我 们 已 经 有 一 个 可 以 将 投票 编码 为 元 素 项 的 系统 ， 接 下 来 是 时 候 生成 事务 数据 库 了 。 
一 旦 有 了 事务 数据 库 ， 就 可 以 应 用 早先 写 的 Apriori 代 码 。 下 面 将 构建 一 个 使 用 actionId 串 作为 
输入 并 利用 votesmart 的 API 来 抓 取 投票 记录 的 函数 。 然 后 将 每 个 选举 人 的 投票 转化 为 一 个 项 
集 。 每 个 选举 人 对 应 于 一 行 或 者 说 事务 数据 库 中 的 一 条 记录 。 下 面 看 一 下 实际 的 效果 ， 打 开 
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apriori.py 文 件 并 添加 下 面 清单 中 的 代码 。 
程序 清单 11-5 ”基于 投票 数据 的 事务 列表 填充 函数 


def getTransList {actionIidList, billTitleList): 


itemMeaning = ['Republican', 'Democratic'] 
for billTitle in billTitleList: E s 
; ; itemMeaning 列 表 
itemMeaning.append('%s -- Nay' % billTitle) 2 填充 9 列 
itemMeaning.append('%s -- Yea! 多 billTitle) 


transDict = {} 
voteCount = 2 
for actionId in actionIdList: 
sleep (3) ; 
print 'getting votes for actionId: %d' % actionId 
Er 
voteList = votesmart .votes.getBillActionVotes (action1d) 
for vote in voteList: 
if not transDict .has_key (vote.candidateName): 
transDict [vote.candidateName] = [] 
if vote.officeparties == IDemocratic ' : 
transDict {vote.candidateName] .append (1) 
elif vote.officeParties == Republican': 
transDict [vote.candidateName] .append (0) 
if vote.action == 'Nay': 
transDict [vote.candidateName] .append (voteCount) 
elif vote,action == 'Yea': 
transDict [vote.candidateName] .append (voteCount + 1) 
except: 
print "problem getting actionId: %d" % actionId 
voteCount += 2 
return transDict, itemMeaning 


函数 getTransList() 会 创建 一 个 事务 数据 库 ， 于 是 在 此 基础 上 可 以 使 用 前 面 的 Apriori 代 码 
来 生成 频繁 项 集 与 关联 规则 。 该 函数 也 会 创建 一 个 标题 列表 , 所 以 很 容易 了 解 每 个 元 素 项 的 含义 。 
一 开始 使 用 前 两 个 元 素 “Repbulican” 和 “Democratic” 创建 一 个 含义 列表 itemMeaning。 当 想 
知道 某 些 元 素 项 的 具体 含义 时 ， 需 要 做 的 是 以 元 素 项 的 编号 作为 索引 访问 itemMeaning 即 可 。 
接 下 来 遍历 所 有 议案 ， 然后 在 议案 标题 后 添加 Nay (反对 ) 或 者 Yea ( 同意 ) 并 将 它们 放 入 
itenMeaning 列 表 中 @。 接 下 来 创建 一 个 空 字典 用 于 加 入 元 素 项 ， 然后 遍历 函数 getactionIds () 
返回 的 每 一 个 actionId。 遍历 时 要 做 的 第 一 件 事 是 休眠 ， 即 在 for 循 环 中 一 开始 调用 sleep () 
函数 来 延迟 访问 ， 这 样 做 可 以 避免 过 于 频繁 的 API 调 用 。 接 着 将 运行 结果 打印 出 来 ， 以 便 知道 程 
序 是 否 在 正常 工作 。 再 接着 通过 try. .except 块 来 使 用 VotesmartAPI 获 取 某 个 特定 actionId 
相关 的 所 有 投票 信息 。 然 后 ， 遍历 所 有 的 投票 信息 (通常 voteList 会 超过 400 个 投票 )。 在 遍历 
时 ， 使 用 政客 的 名 字 作 为 字典 的 键 值 来 填充 transDict。 如 果 之 前 没有 过 到 该 政客 ， 那么 就 要 获 
取 他 的 政党 信息 。 字 典 中 的 每 个 政客 都 有 一 个 列表 来 存储 他 投票 的 元 素 项 或 者 他 的 政党 信息 。 接 
下 来 会 看 到 该 政客 是 否 对 当前 议案 投了 赞成 (Yea ) 或 反对 (Nay ) 票 。 如 果 他 们 之 前 有 投票 ， 
那么 不 管 是 投 赞 成 票 还 是 反对 票 ， 这 些 信 息 都 将 添加 到 列表 中 。 如 果 API 调 用 中 发 生 了 什么 错误 ， 
except 模 块 中 的 程序 就 会 被 调用 并 将 错误 信息 输出 到 屏幕 上 ， 之 后 函数 仍然 继续 执行 。 最 后 ， 








Sa 
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程序 返回 事务 字典 transDict 及 元 素 项 含义 类 表 ; temMeaningo 
下 面 看 一 下 投票 信息 的 前 两 项 ， 了 人 解 上 述 代 码 是 否 正常 工作 : 


>>> reload (apriori) 
<module 'apriori' from 'apriori.py'> 
,>>transDict, itemMeaning=apriori.getTransList (actionIdList [:2], 








billTitles[:2]) 
getting votes for actionIQ: 34089 
getting votes for actionId: 34091 


下 面 看 一 下 transDict 中 包含 的 具体 内 容 : 
>>> for key in transDict .keys(): 

ed print transDict [key] 

[1， 


2, 5] 
[1, 2, 4] 
[0,3,， 4] 
[0, 3, 4] 
[1, 2, 4] 
[0，3，41] 
[1] 
[L275] 
[1, 2, 4] 
[1] 
[1, 2, 41 
[0，3，4] 
[1, 2, 51 
[1, 2, 4] 
[0, 3, 4] 


如 果 上 面 许多 列表 看 上 去 都 类 似 的 话 , 读者 也 不 要 太 过 担心 。 许多 政客 的 投票 结果 都 很 类 似 。 
现在 如 果 给 定 一 个 元 素 项 列表 ， 那 么 可 以 使 用 itemMeaning 列 表 来 快速 “解码 ” 出 它 的 含义 : 


>>> transDict.keys() [6] 

u' Doyle, Michael 'Mike' ' 

>>> for item in transDict[: Doyle, Michael 'Mike'']: 
print itemMeaning [itemj 


Republican 
prohibiting Federal Funding of National Public Radio -- Yea 
Removing Troops from Afghanistan - Nay 


上 述 输 出 可 能 因 Votesmart 服 务 器 返回 的 结果 不 同 而 有 所 差异 。 
下 面 看 看 完整 列表 下 的 结果 ; 


>>> transDict,itemMeaning=apriori.getTransList (actionIdList, billTitles) 
getting votes for actionId: 34089 
getting votes for actionIQ: 34091 
getting votes for actionId: 34229 


接 下 来 在 使 用 前 面 开发 的 Apriori 算 法 之 前 , 需要 构建 一 个 包含 所 有 事务 项 的 列表 。 可 以 使 用 


类 似 于 前 面 for 循 环 的 一 个 列表 处 理 过 程 来 完成 : 


>>> dataSet = [transpict{key] for key in transDict .keys ()] 
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上 面 这 样 的 做 法 会 去 掉 键 值 ( 即 政客 ) 的 名 字 。 不 过 这 无 关 紧要 ， 这 些 信息 不 是 我 们 感 兴趣 
的 内 容 。 我 们 感 兴趣 的 是 元 素 项 以 及 它们 之 间 的 关联 关系 。 接 下 来 将 使 用 Apriori 算 法 来 挖 据 上 面 
例子 中 的 频繁 项 集 与 关联 规则 。 


11.5.2 ”测试 算法 ， 基 于 美国 国会 投票 记录 挖掘 关联 规则 


现在 可 以 应 用 11.3 节 的 Apriori 算 法 来 进行 处 理 。 如 果 使 用 默认 的 支持 度 阔 值 50%， 那 么 应 该 
不 会 产生 太 多 的 频繁 项 集 ; 


>>> L,suppData=apriori .apriori (dataSet， minSsupport=0.5) 

>>> L 

[[frozenset ([4]), frozenset ([13] ) ， frozenset {([0]), frozenset ([21}))], 
[frozenset ([13, 211)], ([]] 


使 用 一 个 更 小 的 支持 度 立 值 30% 会 得 到 更 多 频繁 项 集 : 


>>> L,suppData=apriori.apriori (dataset, minSupport=0.3) 
>>> len{(L) 


8 
当 使 用 30% 的 支持 度 阐 值 时 ， 会 得 到 许多 频繁 项 集 ， 甚 至 可 以 得 到 包含 所 有 7 个 元 素 项 的 6 个 
频繁 集 。 


>>> L[6] 

[frozenset([0，3，7，9，23，25，26])， frozenset ([0, 3, 4, 9, 23, 25, 26]), 
frozenset ([0, 3, 4, 7, 9, 23, 26]), frozenset ({[0, 3, 4, 7, 9, 23, 25]), 
frozenset ([0, 4, 7, 9, 23, 25, 26]), frozenset ([0, 3, 4, 7, 9, 25, 261)] 


获得 频繁 项 集 之 后 就 可 以 结束 ， 也 可 以 尝试 使 用 11.4 节 的 代码 来 生成 关联 规则 。 首 先 将 最 小 
可 信 度 值 设 为 0.7: 

>>> rules = apriori.generateRules(L, suppData) 
这 样 会 产生 太 多 规则 ， 于 是 可 以 加 大 最 小 可 信 度 值 。 

>>> rules = apriori.generateRules(L,suppData, minConf=0.95) 


frozenset ([15]) --> frozenset ([1]) conf: 0.961538461538 
frozenset ([22]) --> frozenset([1]) conf: 0.951351351351 


frozenset ([25, 26, 3, 4]) --> frozenset([0, 9, 7]) conf: 0.97191011236 
frozenset ([0, 25, 26, 4]) --> frozenset([9, 3, 7]) conf: 0.950549450549 


ly 2 

继续 增加 可 信和 度 值 : 
>>> rules = apriori.generateRules (了 ,SuUPPData， minConf=0.99) 
frozenset ([31) --> frozenset ([9]) conf: 1.0 


frozenset ([3]) --> frozenset ([0]) conf: 0.995614035088 
frozenset ([3]) --> frozenset([0, 9]) conf: 0.995614035088 
frozenset{[26, 3]) --> frozenset ([0, 9]) conf: 1.0 
frozenset ([9, 26]) --> frozenset({[0, 7]) conf: 0.957547169811 











sa 
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frozenset ([23, 26, 3, 4, 7]) --> frozenset ([0, 9]) conf: 1.0 
frozenset ([23, 25, 3, 4, 7]) --> frozenset([0， 9]) conf: 0.994764397906 
frozenset ({[25, 26, 3, 4, 7]) --> frozenset ({[0, 9]) conf: 1.0 


上 面 给 出 了 一 些 有 趣 的 规则 。 如 果 要 找 出 每 一 条 规则 的 含义 ， 则 可 以 将 规则 号 作为 索引 输入 














到 itemMeaning 中 : 
>>> itemMeaning [26] 
prohibiting the Use of Federal Funds for NASCAR Sponsorships -- Nay' 
>>> itemMeaning [3] 
prohibiting Federal Funding of National Public Radio -- Yea' 
>>> itemMeaning[9] 
'Repealing the Health Care Bill -- Yea! i: 
在 图 11-6 中 列 出 了 下 面 的 几 条 规则 ，{3} 一 {0}、{22} 一 {1} 及 {9,26} 一 {0,7}。 
if Then 可 信和 度 
Prohibiting Federal Funding of me 1 0 
Nationaf Pubiic Radio -- Yea Republican 99.6 % 
| Prohibiting Use of Federat 
Funds For Planned wp Democrat 95, 1 % 
Parenthood -- Nay 
Prohibiting the Use of Federal 
Republican 
Sponsorships ~ Nay And 95 8% 
And Terminating the Home 
Repealing the Heallh Care Bill Affordable Modification 
a 


Program -- Yea 
] 图 11-6 关联 规则 {3} 一 {0}、{22} 一 {1} 与 {9,26} 一 {0,7} 的 含义 及 可 信和 度 


数据 中 还 有 更 多 有 趣 或 娱乐 性 十 足 的 规则 。 还 记得 前 面 最 早 使 用 的 支持 度 30% 吗 ? 这 意味 着 这 
些 规则 至 少 出 现在 30% 以 上 的 记录 中 。 由 于 至 少 会 在 30% 的 投票 记录 中 看 到 这 些 规则 ， 所 以 这 是 很 
有 意义 。 对 于 {3} 一 {0} 这 条 规则 ， 在 99.6% 的 情况 下 是 成 立 的 。 我 真希 望 在 这 类 事情 上 赌 一 把 。 


11.6 示例 : 发 现 毒 蘑菇 的 相似 特征 


有 时 我 们 并 不 想 寻 找 所 有 频繁 项 集 , 而 只 对 包含 某 个 特定 元 素 项 的 项 集 感 兴趣 。 在 本 章 这 个 
最 后 的 例子 中 , 我 们 会 寻找 毒 蘑菇 中 的 一 些 公共 特 征 ， 利 用 这 些 特征 就 能 避免 吃 到 那些 有 毒 的 蓝 
菇 。UCI 的 机 器 学 习 数 据 集合 中 有 一 个 关于 肋 形 蘑菇 的 23 种 特征 的 数据 集 ， 每 一 个 特征 都 包含 一 
个 标 称 数据 值 。 我 们 必须 将 这 些 标 称 值 转化 为 一 个 集合 ， 这 一 点 与 前 面 投票 例子 中 的 做 法 类 似 。 幸 
运 的 是 , 已 经 有 人 已 经 做 好 了 这 种 转换 ?。Roberto Bayardo 对 UCI 茧 菇 数据 集 进 行 了 解析 ,将 每 个 蘑 
菇 样本 转换 成 一 个 特征 集合 。 其 中 , 枚 举 了 每 个 特征 的 所 有 可 能 值 ， 如 果 某 个 样本 包含 特征 , 那么 
该 特征 对 应 的 整数 值 被 包含 数据 集中 。 下 面 我 们 近 距 离 看 看 该 数据 集 。 它 在 源 数据 集合 中 是 一 个 名 
为 mushroom.dat 的 文件 。 下 面 将 它 和 原始 数据 集 http://archive.ics.uci.edu/ml/machine-learning-databases/ 
mushroom/agaricus-lepiota.data 进 行 比较 。 





中 “Frequent Itemset Mining Dataset Repository” retrieved July 10, 2011; http://fimi.ua.ac.be/data/. 
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文件 mushroom.Gat 的 前 几 行 如 下 : 


139 13 23 25 34 36 38 40 52 54 59 63 67 76 85 86 90 93 98 107 113 
239 14 23 26 34:36 39 40 52 55 59 63 67 76 85 86 90 93 99 108 114 
249 15 23 27 34 36 39 41 52 55 59 63 67 76 85 86 90 93 99 108 115 


第 一 个 特征 表示 有 毒 或 者 可 食用 。 如 果 某 样本 有 毒 ， 则 值 为 2。 如 果 可 食用 ， 则 值 为 1。 下 一 


-个 特征 是 蘑菇 伞 的 形状 ， 有 六 种 可 能 的 值 ， 分 别 用 整数 3-8 来 表示 。 


为 了 找到 毒 芯 菇 中 存在 的 公共 特征 , 可 以 运行 Apriori 算 法 来 寻找 包含 特征 值 为 2 的 频繁 项 集 。 
>>> mushDatSet = [line.split() for line in 
open('mushroom,dqat') .readlines()] 


在 该 数据 集 上 运行 Apriori 算 法 : 
>>> LDL, SuppData=apriori.apriori(mushDatSet， minSupport=0.3) 


在 结果 中 可 以 搜索 包含 有 毒 特征 值 2 的 频繁 项 集 : 
>>> for item in L[1]: 
if item.intersection('2'): print item 


frozenset(['2:, '59']) 


frozenset (['39', '2:]) 
frozenset(['2', '67']) 
frozenset (['2', '34']) 
frozenset (['2', '23']) 


也 可 以 对 更 大 的 项 集 来 重复 上 述 过 程 : 


>>> for item in D[I3] : 


if item.intersection('2'): print item 
frozenset (['63', '59', '2', '93']) 
frozenset (['39', '2', '53', '34']) 
frozenset (['2', '59', '23', '85']) 
frozenset(['2', '59', '90', '85']) 
frozenset{(['39', '2', '36', '34']) 
frozenset (['39', '63', '2', '85']) 
frozenset(['39', '2', '90', '85']) 
frozenset (['2', '59', '90', '86']) 


接 下 来 你 需要 观察 一 下 这 些 特征 ,以便 知 道 了 解 时 蘑菇 的 那些 方面 。 如果 看 到 其 中 任何 一 个 
特征 ， 那 么 这 些 芯 菇 就 不 要 吃 了 。 当 然 ， 最 后 还 要 声明 一 下 ; 尽管 上 述 这 些 特征 在 毒 蘑 菇 中 很 普 
遍 ， 但 是 没有 这 些 特征 并 不 意味 该 蘑 东 就 是 可 食用 的 。 如 果 吃 错 了 蘑菇 ， 你 可 能 会 因此 而 丧命。 


11.7 “本章 小 结 


关联 分 析 是 用 于 发 现 大 数据 集中 元 素 间 有 趣 关 系 的 一 个 工具 集 , 可 以 采用 两 种 方式 来 量化 这 
些 有 趣 的 关系 。 第 一 种 方式 是 使 用 频繁 项 集 ， 它 会 给 出 经 常 在 一 起 出 现 的 元 素 项 。 第 二 种 方式 是 
关联 规则 ， 每 条 关联 规则 意味 着 元 素 项 之 间 的 “如 果 …… 那 么 ”关系 。 

发 现 元 素 项 间 不 同 的 组 合 是 个 十 分 耗 时 的 任务 ,不 可 避免 需要 大 量 帅 贵 的 计算 资源 ， 这 就 需 
要 一 些 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 项 集 。 能 够 实现 这 一 目标 的 一 个 方法 是 Apriori 
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算法 , 它 使 用 Apriori 原 理 来 减 少 在 数据 库 上 进行 检查 的 集合 的 数目 。Apriori 原 理 是 说 如 果 一 个 元 
素 项 是 不 频繁 的 ， 那 么 那些 包含 该 元 素 的 超 集 也 是 不 频繁 的 。 Apriori 算 法 从 单元 素 项 集 开 始 , 通 
过 组 合 满足 最 小 支持 度 要 求 的 项 集 来 形成 更 大 的 集合 。 支 持 度 用 来 度量 一 个 集合 在 原始 数据 中 出 
现 的 频率 。 
i 商店 中 的 商品 以 及 网 站 的 访问 页 面 是 其 中 比较 常见 的 例 
子 。 关 联 分 析 也 曾 用 于 查看 选举 人 及 法 官 的 投票 历史 。 

每 次 增加 频繁 项 集 的 大 小 ，Apriori 算 法 都 会 重新 扫描 整个 数据 集 。 当 数据 集 很 大 时 ， 这 会 显 
著 降低 频繁 项 集 发 现 的 速度 。 下 一 章 会 介绍 FPgrowth 算 法 ?， 和 Apriori 算 法 相 比 ， 该 算法 只 需要 
对 数据 库 进 行 两 次 遍历 ， 能 够 显著 加 快 发 现 繁 项 集 的 速度 。 





@D H. Li, Y. Wang, D. Zhang, M. Zhang, and E. Chang, “PFP: Parallel FP-Growth for Query Recommendation,” RecSys 2008, 


Proceedings of the 2008 ACM Conference on Recommender Systems; http://portal.acm.org/citation.cfm?id=1454027. 


使 用 FP- growth 算 法 来 和 高 交 
发 现 频繁 项 集 








本 章 内 容 

口 发 现 事务 数据 中 的 公共 模式 
口 FP-growth 算 法 

口 发 现 Twitter 源 中 的 共 现 词 


你 用 过 搜索 引擎 吗 ? 输入 一 个 单词 或 者 单词 的 一 部 分 , 搜索 引擎 就 会 自动 补 全 查询 词 项 。 用 
户 甚至 事先 都 不 知道 搜索 引擎 推荐 的 东西 是 否 存在 , 反而 会 去 查找 推荐 词 项 。 我 也 有 过 这 样 的 经 
历 ， 当 我 输入 以 “为 什么 ”开始 的 查询 时 ， 有 时 会 出 现 一 些 十 分 滑稽 的 推荐 结果 。 为 了 给 出 这 些 
推荐 查询 词 项 ,搜索 引擎 公司 的 研究 人 员 使 用 了 本 章 将 要 介绍 的 一 个 算法 。 他 们 通过 查看 互联 网 
上 的 用 词 来 找 出 经 常 在 一 块 出 现 的 词 对 2。 这 需要 一 种 高 效 发 现 频繁 集 的 方法 。 

本 章 会 在 上 一 章 讨论 话题 的 基础 上 进行 扩展 , 将 给 出 了 一 个 非常 好 的 频繁 项 集 发 现 算法 。 该 
算法 称 作 FP-growth, 它 比 上 一 章 讨论 的 Aprior 算 法 要 快 。 它 基 于 Apriori 构 建 , 但 在 完成 相同 任务 
时 采用 了 一 些 不 同 的 技术 。 这 里 的 任务 是 将 数据 集 存储 在 一 个 特定 的 称 作 FP 树 的 结构 之 后 发 现 频 
繁 项 集 或 者 频繁 项 对 , 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 。 这 种 做 法 使 得 算法 的 执行 速度 要 快 
于 Apriori， 通 常 性 能 要 好 两 个 数量 级 以 上 。 

上 一 章 我 们 讨论 了 从 数据 集中 获取 有 趣 信息 的 方法 , 最 常用 的 两 种 分 别 是 频繁 项 集 与 关联 规 
则 。 第 世 章 中 介绍 了 发 现 频繁 项 集 与 关键 规则 的 算法 ， 本 章 将 继续 关注 发 现 频繁 项 集 这 一 任务 。 
我 们 会 深入 探索 该 任务 的 解决 方法 ， 并 应 用 FP-growth 算 法 进行 处 理 ， 该 算法 能 够 更 有 效 地 挖 捉 
数据 。 这 种 算法 虽然 能 更 为 高 效 地 发 现 频繁 项 集 ， 但 不 能 用 于 发 现 关 联 规则 。 

FP-growth 算 法 只 需要 对 数据 库 进 行 两 次 扫描 ， 而 Aprior 算 法 对 于 每 个 潜在 的 频繁 项 集 都 会 
扫描 数据 集 判 定 给 定 模式 是 否 频繁 ， 因此 FP-growth 算 法 的 速度 要 比 Apriori 算 法 快 。 在 小 规模 数 
据 集 上 ， 这 不 是 什么 问题 ， 但 当 处 理 更 大 数据 集 时 ， 就 会 产生 较 大 问题 。FP- -growth 只 会 扫描 数 





MI. Han, J Pei Y. Yin, R. Mao, “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree 
Approach,” Data Mining and Knowledge Discovery 8 (2004), 53.87. 











“ts 











224 第 12 章 使 用 FP-growth 算法 来 高 效 发 现 频繁 项 集 








据 集 两 次 ， 它 发 现 频繁 项 集 的 基本 过 程 如 下 : 

(1) 构建 FP 树 

(2) 从 FP 树 中 挖掘 频繁 项 集 

下 面 先 讨论 FP 树 的 数据 结构 ,然后 看 一 下 如 何 用 该 结构 对 数据 集 编码 。 最后, 我 们 会 介绍 两 
个 例子 ;一 个 是 从 Twitter 文本 流 中 挖 气 常 用 词 ， 另 一 个 从 网 民 网 页 浏览 行为 中 挖掘 常见 模式 。 


12.1 ”FP 树 ， 用 于 编码 数据 集 的 有 效 方式 


FP-growth 算 法 
优点 ; 一 般 要 快 于 Apriori。 | 
缺点 ; 实现 比较 困难 ， 在 某 些 数据 集 上 性 能 会 下 降 。 
适用 数据 类 型 : 标 称 型 数据 。 


FP-growth 算 法 将 数据 存储 在 一 种 称 为 FP 树 的 紧凑 数据 结构 中 。FP 代 表 频 繁 模式 ( Frequent 
Pattern )。 一 棵 FP 树 看 上 去 与 计算 机 科学 中 的 其 他 树 结构 类 似 , 但 是 它 通过 链接 (link ) 来 连接 相 
似 元 素 ， 被 连 起 来 的 元 素 项 可 以 看 成 一 个 链表 。 图 12-1 给 出 了 FP 树 的 一 个 例子 。 





图 12-1 一 棵 FP 树 , 看 上 去 和 一 般 的 树 没什么 两 样 ， 包 含 着 连接 相似 节点 的 链接 


同 搜索 树 不 同 的 是 ， 一 个 元 素 项 可 以 在 一 棵 FP 树 中 出 现 多 次 。FP 树 会 存储 项 集 的 出 现 频率 ， 
而 每 个 项 集会 以 路 径 的 方式 存储 在 树 中 。 存在 相似 元 素 的 集合 会 共享 树 的 一 部 分 。 只 有 当 集合 之 
闻 完 全 不 同时 ， 树 才 会 分 又 。 树 节点 上 给 出 集合 中 的 单个 元 素 及 其 在 序列 中 的 出 现 次 数 ， 路 径 
会 给 出 该 序列 的 出 现 次 数 。 上 面 这 一 切 昕 起 来 可 能 有 点 让 人 迷糊 , 不 过 不 用 担心 , 稍 后 就 会 介绍 
FP 树 的 构建 过 程 。 

相似 项 之 间 的 链接 即 节点 链接 ( node link )， 用 于 快速 发 现 相似 项 的 位 置 。 为 了 打消 读者 的 
疑惑 ， 下 面 通过 一 个 简单 例子 来 说 明 。 表 12-1 给 出 了 用 于 生成 图 12-1 中 所 示 FP 树 的 数据 。 
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表 12-1 用 于 生成 图 12-1 中 FP 树 的 事务 数据 样 例 








事务 ID 事务 中 的 元 素 项 
001 | rz,h,j,p 
002 2Z, Yy, X, W, V, U t,s 
003 z 
004 r, X, ny 0, S 
005 y, DX,2, dbp 
006 y, 2, x, ©, q, 5, t, m 


在 图 12-1 中 ， 元素 项 z 出 现 了 5 次 ,集合 {nz} 出 现 了 1 次 。 于 是 可 以 得 出 结论 : z 一 定 是 自己 本 
身 或 者 和 其 他 符号 一 起 出 现 了 4 次 。 我 们 再 看 下 z 的 其 他 可 能 性 。 集 合 {t,s,y,x,z} 出 现 了 2 次 ， 集 合 
{bpyx:2 出 现 了 1 次 。 元 素 项 z 的 右边 标的 是 53， 表示 z 出 现 了 5 次 ， 其 中 刚才 已 经 给 出 了 4 次 出 现 ， 
所 以 它 一 定单 独 出 现 过 1 次 。 通 过 观察 表 12-1 看 看 刚才 的 结论 是 否 正确 。 前 面 提 到 {tr,y,x,z} 只 出 
现 过 1 次 ， 在 事务 数据 集中 我 们 看 到 005 号 记录 上 却 是 {ypxzqbp}。 那 么 ，q 和 p 去 哪儿 了 呢 ? 

这 里 使 用 第 11 章 给 出 的 支持 度 定义 ,该 指标 对 应 一 个 最 小 阔 值 ， 低 于 最 小 阔 值 的 元 素 项 被 认 
为 是 不 频繁 的 。 如 果 将 最 小 支持 度 设 为 3， 然 后 应 用 频繁 项 分 析 算 法 ， 就 会 获得 出 现 3 次 或 3 次 以 
上 的 项 集 。 上 面 在 生成 图 12-1 中 的 FP 树 时 ， 使 用 的 最 小 支持 度 为 3， 因 此 q 和 p 并 没有 出 现在 最 后 
的 树 中 。 | 

FP-growth 算 法 的 工作 流程 如 下 。 首 先 构 建 FP 树 ,然后 利用 它 来 挖 拥 频 繁 项 集 。 为 构建 FP 树 ， 
需要 对 原始 数据 集 扫 描 两 遍 。 第 一 遍 对 所 有 元 素 项 的 出 现 次 数 进行 计数 。 记 住 第 11 章 中 给 出 的 
Apriori 原 理 ， 即 如 果 某 元 素 是 不 频繁 的 ,那么 包含 该 元 素 的 超 集 也 是 不 频繁 的 ， 所 以 就 不 需要 考 
虑 这 些 超 集 。 数 据 库 的 第 一 遍 扫描 用 来 统计 出 现 的 频率 ， 而 第 二 遍 扫描 中 只 考虑 那些 频繁 元 素 。 


BE 
(1) 收集 数据 : 使 用 任意 方法 。 | 

(2) 准备 数据 : 由 于 存储 的 是 集合 ， 所 以 需要 离散 数据 。 如 果 要 处 理 连续 数据 ， 需 要 将 它们 
量化 为 离散 值 。 . 

(3) 分 析 数据 ; 使 用 任意 方法 。 

(4) 训练 算法 : 构建 一 个 FP 树 ， 并 对 树 进行 挖 据 。 

(5) 测试 算法 : 没有 测试 过 程 。 

(6) 使 用 算法 : 可 用 于 识别 经 常 出 现 的 元 素 项 ， 从 而 用 于 制定 决策 、 推 荐 元 素 或 进行 预测 
等 应 用 中 。 





12.2 构建 FP 树 
在 第 二 次 扫描 数据 集 时 会 构建 一 棵 FP 树 。 为 构建 _ 棵 树 ， 需 要 一 个 容器 来 保存 树 。 














中 
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12.2.1 创建 FP 树 的 数据 结构 


本 章 的 FP 树 要 比 书 中 其 他 树 更 加 复杂 , 因 此 要 创建 一 个 类 来 保存 树 的 每 一 个 节点 。 创建 文件 
fpGrowth.py 并 加 入 下 列 程序 中 的 代码 。 


程序 清单 12-1 FP 树 的 类 定义 
class treeNode: 
def _ init_ (self, nameValue, numOccur, parentNode): 
self .name = nameValue 
self.count = numOccur 
self.nodeLink = None 
self .parent = parentNode 
self.children = {} 


def incl(selif, numOccur): 


self .count += numOccur 


def displ(self, ind=1): 
print ' iwind, self.name, ' ', Self.count 
for child in self.children.values(): 
child.disp (ind+1) 


上 面 的 程序 给 出 了 FP 树 中 节点 的 类 定义 。 类 中 包含 用 于 存放 节点 名 字 的 变量 和 1 个 计数 值 ， 
nodeLink 变 量 用 于 链接 相似 的 元 素 项 (参考 图 12-1 中 的 虚线 )。 类 中 还 使 用 了 父 变量 parent 来 
指向 当前 节点 的 父 节点 。 通 常情 况 下 并 不 需要 这 个 变量 ， 因 为 通常 是 从 上 往 下 迭代 访问 节点 的 。 
本 章 后 面 的 内 容 中 需要 根据 给 定 叶子 节点 上 湖 整 棵 树 ， 这 时 就 需要 指向 父 节点 的 指针 。 最 后 ， 类 
中 还 包含 一 个 空 字典 变量 ， 用 于 存放 节点 的 子 节点 。 

程序 清单 12-1 中 包括 两 个 方法 , 其 中 inc () 对 count 变 量 增加 给 定 值 ， 而 另 一 个 方法 disp () 
用 于 将 树 以 文本 形式 显示 。 后 者 对 于 树 构建 来 说 并 不 是 必要 的 ， 但 是 它 对 于 调试 非常 有 用 。 

运行 一 下 如 下 代码 : | 

>>> import fpGrowth 

>>> rootNode = fpGrowth.treeNode('pyramid',9, None) 


这 会 创建 树 中 的 一 个 单 节 点 。 接 下 来 为 其 增加 一 个 子 节点 ; 
>>> rootNode.children['eye']=fpGrowth.treeNode(l'eye', 13, None) 


为 显示 子 节点 ， 输 入: 


>>> rootNode ,Qisp() 
pyramid 9 
eye 13 


再 添加 一 个 节点 看 看 两 个 子 节点 的 展示 效果 ; 


>>> rootNode ,children['phoenix']=fpGrowth.treeNode ('phoenix', 3, None) 
>>> rootNode .qisp() 
pyramid 9 


phoenix 3 


现在 FP 树 所 需 数 据 结 构 已 经 建 好 ， 下 面 就 可 以 构建 FP 树 了 。 
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12.2.2 ”构建 FP 树 


除了 图 12-1 给 出 的 FP 树 之 外 ,还 需要 一 个 头 指针 表 来 指向 给 定 类 型 的 第 一 个 实例 。 利 用 头 指 
针 表 ， 可 以 快速 访问 FP 树 中 一 个 给 定 类 型 的 所 有 元 素 。 图 12-2 给 出 了 一 个 头 指针 表 的 示意 图 。 





图 12-2 ”带头 指针 表 的 FP 树 ， 头 指针 表 作为 一 个 起 始 指针 来 发 现 相似 元 素 项 


这 里 使 用 一 个 字典 作为 数据 结构 ,来 保存 头 指 针 表 。 除 了 存放 指针 外 ， 头 指针 表 还 可 以 用 来 
保存 FP 树 中 每 类 元 素 的 总 数 。 

第 一 次 遍历 数据 集会 获得 每 个 元 素 项 的 出 现 频率 。 接 下 来 , 去 掉 不 满足 最 小 支持 度 的 元 素 项 。 
再 下 一 步 构建 FP 树 。 在 构建 时 , 读 人 每 个 项 集 并 将 其 添加 到 一 条 已 经 存在 的 路 径 中 。 如 果 该 路 径 
不 存在 ， 则 创建 一 条 新 路 径 。 每 个 事务 就 是 一 个 无 序 集合 。 假 设 有 集合 {zx,y} 和 {yz,r} ， 那 么 在 
FP 树 中 ,相同 项 会 只 表示 一 次 。 为 了 解决 此 问题 ,在 将 集合 添加 到 树 之 前 ,需要 对 每 个 集合 进行 
排序 。 排 序 基于 元 素 项 的 绝对 出 现 频率 来 进行 。 使 用 图 12-2 中 的 头 指针 节点 值 ， 对 表 12-1 中 数据 
进行 过 滤 、 重 排序 后 的 数据 显示 在 表 12-2 中 。 


表 12-2 ”将 非 频繁 项 移 除 并 且 重 排序 后 的 事务 数据 集 











事务 ID 事务 中 的 元 素 项 过 滤 及 重 排序 后 的 事务 
001 r,2, h,j,p ZT 
002 Zz, y, xX, W, V, U, t, Ss z, X, y, St 
003 Zz Zz 
~ 004 r, X, Nn, 0, S X, S,T 
005 y, I, x, 2z, q,t,p Zz, X, y, I, t 
006 y, Z, x, e, q, s, t, m 、 Z, Xx, y, St 


在 对 事务 记录 过 滤 和 排序 之 后 ， 就 可 以 构建 FP 树 了 。 从 空 集 (符号 为 @ ) 开始 ， 向 其 中 不 
断 添加 频繁 项 集 。 过 滤 、 排 序 后 的 事务 依次 添加 到 树 中 ， 如 果树 中 已 存在 现 有 元 素 ， 则 增加 现 有 
元 素 的 值 ; 如 果 现 有 元 素 不 存在 ， 则 向 树 添加 一 个 分 枝 。 对 表 12-2 前 两 条 事务 进行 添加 的 过 程 显 
示 在 图 12-3 中 。 
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图 12-3 FP 树 构建 过 程 的 一 个 示意 图 ， 图 中 给 出 了 使 用 表 12-2 中 数据 构建 FP 树 的 前 两 步 


通过 上 面 的 叙述 , 我 们 大 致 了 解 了 从 事务 数据 集 转换 为 FP 树 的 基本 思想 ， 接 下 来 我 们 通过 代 
码 来 实现 上 述 过 程 。 打开 fipGrowth.py 文 件 ， 加 入 下 面 的 代码 。 


程序 清单 12-2”FP 树 构建 函数 
def createTree (dataSet, minsup=1): 
headerTable = {} 
for trans in dataSet 
for item in trans: 
headerTable [item] = headerTable.get (item, 0) + dataSset [trans] 
for k in headerTable.keys (): | 移 除 不 满足 最 小 . 
if headerTable[k] < minSup: 支持 度 的 元 素 项 
del (heaGerTable [Kk] ) 
freqItemSet = set (headerTable.keys()) 


if len(freqItemSet) == 0: return None, None “© a _ 
for k in headerTable: 如 果 没有 元 素 项 满足 
headezrTable [k] = [headerTable[k], Nonel 要 求 ， 则 退出 


retTree = treeNode('Null Set', 1, None) 
for tranSset,. count in dataset.items(): 
localD = {} 


for item in tranSet: | 根据 全 局 频率 对 每 个 事 


if item in fredILemSet : 务 中 的 元 素 进行 排序 
LocalD [item] = headerTable [item] [0] 


if len(localD) > 0: ， 
orderedItems = {v[0] for v in sorted (localD.items(), 


key=lambda p: pl[1], reverse=True)] 
updateTree (orderedItems, retTree, \ 使 用 排序 后 的 频率 项 
headerTable, count) 集 对 树 进行 填充 


return retTree, headerTable 


def updateTree(items, inTree, headerTable, count): 
if items[0] in inTree.children: 

inTree.children{[items [0]] .inc(count) 

else: 
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inTree.children[items [0]] = treeNode (items [0] count, inTree) 
if headerTable [items{0]l] [1] == None: : 有 

headerTablefitems [0]] [1] = inTree.childrenlitems [0]] 
else: | - 


updateHeader (headerTable [items [0]] {1], 
inTree.children [items [0]]) 
if len(items) > 1: | 
UpdateTree (items [1::], inTree.childreniitems [0]]， 


neaderTable, count) 
def updateHeader (nodeToTest, targetNode): 对 剩 下 的 元 素 项 适 代 
while (nodeToTest .nodeLink != None) : 调用 updateTree 函 数 


nodeToTest = nodeToTest .nodeLink 
nodeToTest .nodeLink = targetNode 


上 述 代码 中 包含 3 个 函数 。 第 一 个 函数 createTree ( ) 使 用 数据 集 以 及 最 小 支持 度 作为 参数 
来 构建 FP 树 。 树 构建 过 程 中 会 遍历 数据 集 两 次 。 第 一 次 饥 历 扫 描 数据 集 并 统计 每 个 元 素 项 出 现 的 
频 度 。 这 些 信息 被 存储 在 头 指 针 表 中 。 接 下 来 ， 扫 描 头 指 针 表 期 掉 那些 出 现 次 数 少 于 minsSup 的 
项 @。 如 果 所 有 项 都 不 频繁 ， 就 不 需要 进行 下 一 步 处 理 @。 接 下 来 ， 对 头 指针 表 稍 加 扩展 以 便 可 
以 保存 计数 值 及 指向 每 种 类 型 第 一 个 元 素 项 的 指针 。 然后 创建 只 包含 空 集合 名 的 根 节点 。 最 后 ， 
再 一 次 遍历 数据 集 ， 这 次 只 考虑 那些 频繁 项 合 。 这 些 项 已 经 如 表 12-2 所 示 那 样 进行 了 排序 ， 然 后 
调用 updateTree() 方 法 @。 接 下 来 讨论 函数 upaateTree()。 

为 了 让 FP 树 生长 02 ， 需 调用 updateTree， 其 中 的 输入 参数 为 一 个 项 集 。 图 12-3 给 出 了 
updateTree() 中 的 执行 细节 。 该 函数 首先 测试 事务 中 的 第 一 个 元 素 项 是 否 作为 子 节点 存在 。 如 
果 存 在 的 话 ， 则 更 新 该 元 素 项 的 计数 ; 如 果 不 存在 ， 则 创建 一 个 新 的 treeNode 并 将 其 作为 一 个 
子 节点 添加 到 树 中 。 这 时 ， 头 指针 表 也 要 更 新 以 指向 新 的 节点 。 更 新 头 指针 表 需 要 调用 函数 
updateHeader() ， 接 下 来 会 讨论 该 函数 的 细节 。updateTree () 完成 的 最 后 一 件 事 是 不 断 迭 代 
调用 自身 ， 每 次 调用 时 会 去 掉 列 表 中 第 一 个 元 素 @。 

程序 清单 12-2 中 的 最 后 一 个 函数 是 updateHeader ()， 它 确保 节点 链接 指向 树 中 该 元 素 项 的 
每 一 个 实例 。 从 头 指针 表 的 nodeLink 开 始 ， 一 直 治 着 nodeLink 直 到 到 达 链 表 末 尾 。 这 就 是 一 个 
链表 。 当 处 理 树 的 时 候 ， 一 种 很 自然 的 反应 就 是 迭代 完成 每 一 件 事 。 当 以 相同 方式 处 理 链表 时 可 
能 会 遇 到 一 些 问题 ， 原因 是 如 果 链 表 很 长 可 能 会 遇 到 迭代 调用 的 次 数 限制 。 

在 运行 上 例 之 前 ， 还 需要 一 个 真正 的 数据 集 。 这 可 以 从 代码 库 中 获得 ， 或 者 直接 手工 输 
和 人。1oadSimpDat () 函数 会 返回 一 个 事务 列表 。 这 和 表 12-1 中 的 事务 相同 。 后 面 构建 树 时 会 
使 用 createTree() 函数 ， 而 该 函数 的 输入 数据 类 型 不 是 列表 。 其 需要 的 是 一 部 字典 ， 其 中 
项 集 为 字典 中 的 键 ， 而 频率 为 每 个 键 对 应 的 取 值 。createInitSset () 用 于 实现 上 述 从 列表 
到 字典 的 类 型 转换 过 程 。 将 下 列 代码 添加 到 fpGrowth.py 文 件 中 。 


一 一 


Q@ 这 就 是 FP-growth 中 的 growth( 生长 ) 一 词 的 来 源 。 














PE 
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程序 清单 12-3 ”简单 数据 集 及 数据 包装 器 


def loadqSimpDat () : 
simpDat = [['rY', '2', 
了 


三 


Dy 1p'],， 


['z', yy', ‘xX', Ww', Iwi, mu', it', 1g1']， 
f'z'], 

[rev rs rm’'y 1O1， 19'], 

[ry', ne rx ro, AGE 1 'p'], 

['y! 1217 1 re', i'q! Ee 上 im']] 


return simpDat 


def createInitSet (dataSet): 
retDict = {} 
for trans in datasSet: 
retDict[frozenset (trans)] = 1 
return retDict 


好 了 ,下面 看 看 实际 的 效果 。 将 程序 清单 12-3 中 的 代码 加 入 文件 外 Growth.py 之 后 ， 在 Python 
提示 符 下 输入 命令 : 


>>> reload (fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


首先 ， 导 入 数据 库 实例 : 


>>> SimpDat = fpGrowth.1loadsimpDat () 

>>> simpDat 

Et ‘zz!) 'h', Dn 1p'], ['z', 1Y1， Hx, Iw Iv', iu’', ‘ti', 19'], 
{'z'], Cir Te a a 's'], by’', SR Ke ty + 'q', hs 'p'], 
[yy io! et Fey 1 bat ME, 'm']] 


接 下 来 为 了 函数 createTree () ， 需 要 对 上 面 的 数据 进行 格式 化 处 理 ; 


>>> initSet = fpGrowth.createInitSet (simpDat) 

>>> initSet 

{frozenset (['e', 'm', 'q', ‘Ss', 't', 'y', 'x', 'z21]): 1, frozenset (['x', 
igs', 'r', '0O', 'n']): 1, frozenset(['s', ‘U', 't', Ww', vi, 'Y', 'x', 
121]): 1, frozenset(['q', ‘Pp', ‘rl, ‘tr, Iy', x', '2']): 1, 

frozenset (['h', ‘r', '2', 'p', 'j']): 1, frozenset (['z']): 1} 


于 是 可 以 通过 如 下 命令 创建 FP 树 ; 
>>> myFPtree, myHeaderTab = fpGrowth.createTree (initSet， 3) 
使 用 aisp () 方 法 给 出 树 的 文本 表示 结果 : 


>>> myFPtree.disp() 
Null Set 1 
Xx 1 
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上 面 给 出 的 是 元 素 项 及 其 对 应 的 频率 计数 值 , 其 中 每 个 缩 进 表示 所 处 的 树 的 深度 。 读 者 可 以 
验证 一 下 这 棵 树 与 图 12-2 中 所 示 的 树 是 否 等 价 。 
现在 我 们 已 经 构建 了 FP 树 ， 接 下 来 就 使 用 它 进行 频繁 项 集 挖 气 。 


12.3 ”从 一 棵 FP 树 中 挖掘 频繁 项 集 


实际 上 ， 到 现在 为 止 大 部 分 比较 困难 的 工作 已 经 处 理 完了 。 接 下 来 写 的 代码 不 会 再 像 12.1 节 
那样 多 了 。 有 了 FP 树 之 后 ， 就 可 以 抽取 频繁 项 集 了 。 这 里 的 思路 与 Apriori 算 法 大 致 类 似 ， 首 先 从 
单元 素 项 集合 开始 , 然后 在 此 基础 上 逐步 构建 更 大 的 集合 。 当 然 这 里 将 利用 FP 树 来 做 实现 上 述 过 
程 ， 不 再 需要 原始 数据 集 了 。 

从 FP 树 中 抽取 频繁 项 集 的 三 个 基本 步骤 如 下 : 

(1) 从 FP 树 中 获得 条 件 模 式 基 ，; 

(2) 利用 条 件 模式 基 ， 构 建 一 个 条 件 FP 树 ; 

(3) 迭代 重复 步骤 (1) 步 又 (2)， 直 到 树 包含 一 个 元 素 项 为 止 。 

接 下 来 重点 关注 第 (0) 步 ， 即 寻找 条 件 模式 基 的 过 程 。 之 后 , 为 每 一 个 条 件 模式 基 创建 对 应 的 
条 件 FP 树 。 最 后 需要 构造 少许 代码 来 封装 上 述 两 个 函数 ， 并 从 FP 树 中 获得 频繁 项 集 。 


12.3.1 抽取 条 件 模式 基 


首先 从 上 一 节 发 现 的 已 经 保存 在 头 指针 表 中 的 单个 频繁 元 素 项 开始 。 对 于 每 一 个 元 素 项 , 获 
得 其 对 应 的 条 件 模式 基 (conditional pattern base )。 条 件 模式 基 是 以 所 查找 元 素 项 为 结尾 的 路 径 集 
合 。 每 一 条 路 径 其 实 都 是 一 条 前 组 路 径 ( prefix path )。 简 而 言 之 ， 一 条 前 级 路 径 是 介 于 所 查找 元 
素 项 与 树 根 节 点 之 间 的 所 有 内 容 。 

回 到 图 12-2, 符号 :的 前 缀 路 径 是 {x,s} 、{zxy} 和 {z}。 每 一 条 前 绷 路 径 都 与 一 个 计数 值 关联 。 
该 计数 值 等 于 起 始 元 素 项 的 计数 值 , 该 计数 值 给 了 每 条 路 径 上 r 的 数目 。 表 12-3 列 出 了 上 例 当 中 每 
一 个 频繁 项 的 所 有 前 缀 路 径 。 


表 12-3 ”每 个 频繁 项 的 前 缀 路 径 





频 繁 项 前 缀 路 径 
Z {}5 
r {x,s}1, {z,x,y}1, {z}1 
x {2}3, {}1 
y {zx}3 
S {2,x,y}2, {x}1 


t {ZX)y,5}2, {2Z,x,y,r}1 


ww -一 -一 


前 级 路 径 将 被 用 于 构建 条 件 FP 树 , 但 是 现在 暂时 先 不 需要 考虑 这 件 事 。 为 了 获得 这 些 前 缕 路 
径 ， 可 以 对 树 进行 穷 举 式 搜索 ， 直 到 获得 想 要 的 频繁 项 为 止 ， 或 者 使 用 一 个 更 有 效 的 方法 来 加 速 
搜索 过 程 。 可 以 利用 先前 创建 的 头 指针 表 来 得 到 一 种 更 有 效 的 方法 。 头 指针 表 包 含 相 同类 型 元 素 

















232 第 12 章 使 用 FP-growth 算法 来 高 效 发 现 频 繁 项 集 
链表 的 起 始 指针 。 一 旦 到 达 了 每 一 个 元 素 项 ， 就 可 以 上 淹 这 棵 树 直 到 根 节 点 为 止 。 
下 面 的 程序 清单 给 出 了 前 缀 路 径 发 现 的 代码 ， 将 其 添加 到 文件 pGrowth.py 中 。 


程序 清单 12-4 “发现 以 给 定 元 素 项 结尾 的 所 有 路 径 的 函数 
def ascendTree (leafNode, prefixPath): 
if leafNode.parent != None: 
prefixPath.append (leafNode .name) 
ascendTree (leafNode .parent, prefixPath) 


-0 迭代 上 济 整 棵 树 


def findprefixPath (basepat, treeNode): 

condpats = {} 

while treeNode i= None: 
prefixpath = [] 
ascendTree (treeNode, prefixpPath) 
if len(prefixPath) > 1: 

condpats [frozenset (prefixpPath[1:])] = treeNode.count 

treeNode = treeNode .nodeLink 

return condPpats 


上 述 程序 中 的 代码 用 于 为 给 定 元 素 项 生成 一 个 条 件 模式 基 , 这 通过 访问 树 中 所 有 包含 给 定 元 
素 项 的 节点 来 完成 。 当 创建 树 的 时 候 ， 使 用 头 指 针 表 来 指向 该 类 型 的 第 一 个 元 素 项 ， 该 元 素 项 也 
会 链接 到 其 后 续 元 素 项 。 函 数 findprefixPath () 饥 历 链表 直到 到 达 结尾 。 每 遇 到 一 个 元 素 项 都 
会 调用 ascendmrree () 来 上 滴 FP 树 ,并 收集 所 有 过 到 的 元 素 项 的 名 称 @。 该 列表 返回 之 后 添加 到 
条 件 模 式 基 字典 condPats 中 。 

使 用 之 前 构建 的 树 来 看 一 下 实际 的 运行 效果 ; 

>>> reload (fpGrowth) 

<module 'fpGrowth' from 'fpGrowth.py'> 

>>> fpGrowth,.findprefixPath('x', myHeaderTab['x'] [1]) 

{frozenset (['z']): 3} 


>>> fpGrowth.findprefixPath('z', myHeaderTab['z'] [1]) 

{} 

>>> fpGrowth.findprefixpath('r', myHeaderTab{'r'] [1]) 

{frozenset (['x', 's']): 1, frozenset(['2']): 1, | 
frozenset (['y', ‘x', 'z']):; 1} 


读者 可 以 检查 一 下 这 些 值 与 表 12-3 中 的 结果 是 否 一 致 。 有 了 条 件 模式 基 之 后 ,就 可 以 创建 条 
件 FP 树 0 上 


12.3.2 ”创建 条 件 FP 树 


对 于 每 一 个 频繁 项 ,都 要 创建 一 棵 条 件 FP 树 。 我 们 会 为 2、x 以 及 其 他 频繁 项 构建 条 件 树 。 可 
以 使 用 刚才 发 现 的 条 件 模 式 基 作 为 输入 数据 ， 并 通过 相同 的 建树 代码 来 构建 这 些 树 。 然 后 , 我 们 
会 递归 地 发 现 频繁 项 、 发 现 条 件 模 式 基 ， 以 及 发 现 另 外 的 条 件 树 。 举 个 例子 来 说 , 假定 为 频繁 项 
创建 一 个 条 件 FP 树 , 然后 对 {ty}、{tx}、"… 重 复 该 过 程 。 元 素 项 t 的 条 件 FP 树 的 构建 过 程 如 图 12-4 
所 示 。 


12.3 ”从 一 棵 FP 树 中 控 气 频繁 项 集 233 





t 的 条 件 FP 树 
条 件 模式 基 : {yxX,S,2}:2, {yx,r,z2}):1 
最 小 支持 度 = 3 
去 掉 : st&kr 


加 入 {y,x,z}:2 加 入 {y,x,2z}:1 


re 





图 12-4”t 的 条 件 FP 树 的 创建 过 程 。 最 初 树 以 空 集 作 为 根 节点 。 接 下 来 ， 原 始 的 集 
合 {y,x,s,z} 中 的 集合 {y,x,z} 被 添加 进来 。 因 为 不 满足 最 小 支持 度 要 求 ， 字 
符 s 并 没有 加 入 进来 。 类 似 地 ，{y,x,z} 也 从 原始 集合 {y,x,n,z} 中 添加 进来 


在 图 12-4 中 ,注意 到 元 素 项 s 以 及 r 是 条 件 模式 基 的 一 部 分 , 但 是 它们 并 不 属于 条 件 FP 树 。 原 


_ 因 是 什么 ?如果 讨论 s 以 及 的 话 ， 它 们 难道 不 是 频繁 项 吗 ? 实际 上 单独 来 看 它们 都 是 频繁 项 ， 但 


是 在 t 的 条 件 树 中 ， 它 们 却 不 是 频繁 的 ， 也 就 是 说 ，{tr} 及 {t,s} 是 不 频繁 的 。 

接 下 来 ， 对 集合 和 tz} 、{tx} 以 及 {ty} 来 挖掘 对 应 的 条 件 树 。 这 会 产生 更 复杂 的 频 蛇 项 集 。 该 
过 程 重复 进行 ， 直 到 条 件 树 中 没有 元 素 为 止 ， 然 后 就 可 以 停止 了 。 实 现代 码 相对 比较 直观 ， 使 用 
一 些 递归 加 上 之 前 写 的 代码 就 可 以 完成 。 打 开 fpGrowth.py， 将 下 面 程序 中 的 代码 深 加 进去 。 


程序 清单 12-5 递归 查找 频繁 项 集 的 mineTree 销 数 
def mineTree (inTree, headerTable, minSup, preFix, freqIitemList): 


bigL = [v[0] for v in sorted(headerTable.items(), 2 从 头 指针 表 的 底 端 开始 
key=lambda p: p[1])] 
for basePat in bigL: 
newFreqSet = preFix.copy() 
newFreqSet .add (basepPat) 
freqItembList .append (newFreqSet) 
condPpattBases = findprefixpath{(basePat, headerTable [basepat] [1]) 
myCondTree, myHead = createTree (condpattBases,\ 
minSsup) 


if myHead != None: 
mineTree (myCondTree, myHead, minSup, newFreqSet, freqItemList) 


挖掘 条 件 FP 树 
创建 条 件 树 、 前 缀 路 径 以 及 条 件 基 的 过 程 听 起 来 比较 复杂 , 但 是 代码 起 来 相对 简单 。 程 序 首 
先 对 头 指针 表 中 的 元 素 项 按照 其 出 现 频率 进行 排序 。( 记 住 这 里 的 默认 顺序 是 按照 从 小 到 大 。 )@ 
然后 ， 将 每 一 个 频繁 项 添加 到 频繁 项 集 列表 freqITtemList 中 。 接 下 来 ， 递 归 调用 程序 清单 12-4 
中 的 findPrefixPath() 函数 来 创建 条 件 基 。 该 条 件 基 被 当成 一 个 新 数据 集 输送 给 create- 
Tree () 函数 。 和 这 里 为 函数 createTree () 添加 了 足够 的 灵活 性 ， 以 确保 它 可 以 被 重用 于 构建 


从 条 件 模式 基 来 构建 条 件 FP 树 














ai 
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条 件 树 。 最 后 ， 如 果树 中 有 元 素 项 的 话 ， 递归 调用 mineTree () 函数 @。 i i ix', '2', 't']), set({'r']), set(['x']), 
en to 将 程序 清 间 125 中 的 人 由 太 如 到 这 什 正如 我 们 所 期 望 的 那样 ， 返 回 项 集 与 条 件 FP 树 相 匹 配 。 到 现在 为 主 ， 完 整 的 FP-growth 算 法 
Ct i nt 已 经 可 以 运行 ， 接 下 来 在 一 个 真实 的 例子 上 看 一 下 运行 效果 。 我 们 将 看 到 是 否 能 从 微 博 网 站 
ee 2 !'fpGrowth.py'> Twitter 中 获得 一 些 常 用 词 。 


下 面 建立 一 个 空 列表 来 存储 所 有 的 频繁 项 集 ; 


>>> freqItems = [] 


12.4 示例: 在 Twitter 源 中 发 现 一 些 共 现 词 


接 下 来 运行 minemree () ， 显 示 出 所 有 的 条 件 树 : 我 们 会 用 到 一 个 叫做 python-twitter 的 Python 库 ， 其 源 代码 可 以 在 http://code.google 
的 NA com/p/ python-twitter/ 下 载 。 正 如 你 猜 到 的 那样 ， 借 助 它 ， 我 们 可 以 使 用 Python 来 访问 Twitter。 
Null Set 1 | Twitter.com 实 际 上 是 一 个 和 其 他 人 进行 交流 的 通道 ， 其 上 发 表 的 内 容 被 限制 在 140 个 字符 以 内 ， 
: * 3 ， 发 表 的 一 条 信息 称 为 礁 文 (tweet)。 

conditional tree for: set([l'y', 'z']) 有 关 Twitter API 的 文档 可 以 在 http://dev.twitter.com/doc 找 到 。API 文 档 与 Python 模 块 中 的 关键 
eu a 1 词 并 不 完全 一 致 。 我 推荐 直接 阅读 Python 文件 twitterpy， 以 完全 理解 库 的 使 用 方法 。 有 关 该 模块 

conditional tree for: set(['s']) 的 安装 可 以 参考 附录 A。 虽然 这 里 只 会 用 到 函数 库 的 一 小 部 分 ， 但 是 使 用 API 可 以 做 更 多 事情 ， 
ys 所 以 我 鼓励 读者 去 探索 一 下 API 的 所 有 功能 。 





conditional tree for: set{['t']) 


:示例 ; 发现 Twittet 沪 中 的 殉 现 阐 -t 











Null Set 1 a @ Bhai ! 
x . 3 (1) 收集 数据 : 使 用 Python- bwitter 模 块 来 访问 推广 
Eo a for: set(['x', 't']) 2) 准备 数据 : 编写 一 个 函数 来 去 挤 URL、 去 捧 标 点 、 转换 成 小 ` 写 并 从 字符 囊 中 建立 一 个 、 
Null Set 1 单词 集合 
A tree for: set(['z', 't']) G3) 分 析 数据 : 在 Python 提 示 符 下 查看 准备 好 的 数据 ， 确保 它 的 正确 性 。 , 
Null Set 1 (4) 训练 算法 : 使 用 本 章 前 面 开发 的 createTree () ne 
i (5) 测试 算法 : 这 里 不 适用 。 
conditional tree for: set({'x', ‘'z', 't']) (6) 使 用 算法 ; 本 例 中 没有 包含 具体 应 用 9 可 以 考虑 用 于 情感 分 析 或 者 查询 推荐 领域 。 
Null Set 1 
3 | 
eenstiona! 0 ee 在 使 用 API 之 前 ， 需 要 两 个 证 书 集合 。 第 一 个 集合 是 consumer_ key 和 consumer secret， 当 
注册 开发 app 时 (https://dev.twitter.com/apps/new )， 可 以 从 Twitter 开发 服务 网 站 获得 。 这 些 key 
为 了 获得 类 似 于 前 面 代 码 的 输出 结果 ， 我 在 函数 minerree () 中 添加 了 两 行 : 对 于 要 编写 的 app 是 特定 的 。 第 二 个 集合 是 access_token_key 和 access_token_secret， 它 们 是 针对 
print 'conditional tree for: ',newFreqSet 特定 Twitter 用 户 的 。 为 了 获得 这 些 key, 需要 查看 Twitter-Python 安装 包 中 的 get_access_token.py 
人 文件 (或 者 从 Twitter 开发 网 站 中 获得 )。 这 是 一 个 命令 行 的 Python 脚本 , 该 脚本 使 用 OAuth 来 告 | 
这 两 行 被 添加 到 程序 中 语句 if myHead != None: 和 minemree () 函数 调用 之 间 。 诉 Twitter 应 用 程序 具有 用 户 的 权限 来 发 布 信息 。 一 旦 完成 上 述 工作 之 后 ， 可 以 将 获得 的 值 放 入 | 
下 面 检查 一 下 返回 的 项 集 是 否 与 条 件 树 匹配 : 前 面 的 代码 中 开始 工作 。 对 于 给 定 的 搜索 词 ， 下 面 要 使 用 FP_growth 算 法 来 发 现 推 文中 的 频繁 
Ty ole ,ee mh a oki i, 单词 集合 。 要 提取 尽 可 能 多 的 推 文 (1400 条 ) 然后 放 到 FP_growth 算 法 中 运行 。 将 下 面 的 代码 
set (['18']), Beti( Ui, 181]), set({'t']), set lt'y', 1t1]), set(['x', 派 加 到 全 Growth.py 文 件 中 。 


‘£1]), set(['y', x', 't']), set([l'z', 't']), set(['y', 'z', ‘'t']), 
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程序 清单 12-6 ”访问 Twitter Python 库 的 代码 


import twitter 
from time import sleep 
import re 


def getLotsOfTweets (searchstr): 
CONSUMER _ KEY = 'get when you create an apP' 
CONSUMER SECRET = 'get when you Create an app' 
ACCESS_TOKEN_KEY = 'get from Oauth, specific to a user'! 
ACCESS_TOKEN_SECRET = 'get from Oauth, specific to a user! 
api = twitter.Api(consumer_key=CONSUMER_ KEY, 
consumer secret=CONSUMER_ SECRET, 
access token key=ACCESS TOKEN KEY, 
access token secret=ACCESS TOKEN SECRET) 
#you can get 1500 results 15 pages * 100 Per page 
resultsPages = [] 
for i in range(1,15): 
print "fetching page %d" % i 
searchResults = api.GetSearch(searchstr, per_page=100, page=i) 
resultspages.append(searchResults) 
sleep (6) 
return resultsPages 


这 里 需要 导入 三 个 库 ， 分 别 是 twitter 库 、 用 于 正则 表达 式 的 库 ， 以 及 sleeb 函 数 。 后 面 会 
使 用 正则 表示 式 来 帮助 解析 文本 。 

函数 getLotsofmweets () 处 理 认证 然后 创建 一 个 空 列表 。 搜 索 API 可 以 一 次 获得 100 条 推 
文 。 每 100 条 推 文 作为 一 页 ， 而 Twitter 允 许 一 次 访问 14 页 。 在 完成 搜索 调用 之 后 ， 有 一 个 6 秒 钟 的 
睡眠 延迟 ， 这 样 做 是 出 于 礼貌， 避免 过 于 频繁 的 访问 请 求 。print 语 句 用 于 表明 程序 仍 在 执行 没 
有 死 掉 。 

下 面 来 抓 取 一 些 推 文 ， 在 Python 提 示 符 下 输入 : 


>>> reload (fpGrowth) 
<module :fpGrowth' from 'fpGrowth.py'> 


接 下 来 要 搜索 一 支 名 为 RIMM 的 股票 : 


>>> lotsOtweets = fpGrowth.getLotsOfTweets ('RIMM') 
fetching page 1 
fetching page 2 


lotsotweets 列 表 包 含 14 个 子 列表 ， 每 个 子 列表 有 100 条 推 文 。 可 以 输入 下 面 的 命令 来 查看 推 文 
的 内 容 : 
>>> lotsOtweets[0] [4] .text 


unRIM: Open The Network, Says ThinkEquity: In addition, RIMM needs to 
reinvent its image, not only demonstrating ... http://bit. ly/1v1lV1iU" 


正如 所 看 到 的 那样 ， 有 些 人 会 在 推 文中 放 入 URL。 这 样 在 解析 时 ,结果 就 会 比较 乱 。 因 此 必须 去 
掉 URL, 以 便 可 以 获得 推 文中 的 单词 。 下 面 程序 清单 中 的 一 部 分 代码 用 来 将 推 文 解析 成 字符 串 列 
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表 ， 另 一 部 分 会 在 数据 集 上 运行 FP-growth 算 法 。 将 下 面 的 代码 添加 到 fpGrowth.py 文 件 中 。 
程序 清单 12-7 文本 解析 及 合成 代码 


def textPparse (bigString) : 
urlsRemoved = re.sub{(' (http[s]?:{/]{/] |www.) ([a-z] | {A-2] | [0-9]1[/ 
.| [~])*:, b 
11+, bigstring) 
listOfTokens = re.split(r'\W*', urlsRemoved) 
return {tok.lower() for tok in listOofTokens if len(tok) > 2] 


def mineTweets (tweetArr, minSsup=5): 
parsedList = [] ， 
for i in range (14) : 
for j in zange (100) : 
parsedList .append (textParse (tweetArr [i] [j] .text)) 
initSet = createInitSet (parsedList) 
myFPtree, myHeaderTab = createTree (initSet，minSup) 
myFreqbList = [] 
mineTree (myFPtree, myHeaderTab, minsup, set([]), myFreqList) 
return myFreqList 


上 述 程序 清单 中 的 第 一 个 函数 来 自 第 4 章 ， 此 外 这 里 添加 了 一 行 代码 用 于 去 除 URL。 这 里 通 
过 调用 正则 表达 式 模块 来 移 除 任何 URL。 程序 清 单 12-7 中 的 另 一 个 函数 mineTweets () 为 每 个 推 
文 调用 textParse。 最 后 ，mineTweets() 函数 将 12.2 节 中 用 过 的 命令 封装 到 一 起 ， 来 构建 FP 树 
并 对 其 进行 挖掘 。 最 后 返回 所 有 频繁 项 集 组 成 的 列表 。 

下 面 看 看 运行 的 效果 ， 

>>> reload (fpGrowth) 

<module 'fpGrowth' from 'fpGrowth.py'> 

Let's look for sets that occur more than 20 times: 

>>> listOfTerms = fpGrowth.mineTweets (lotsOotweets, 20) 

How many sets occurred in 20 or more of the documents? 


>>> len(listOofTerms) 
455 


我 写 这 段 代码 的 前 一 天 ， 一 家 以 RIMM 股 票 代码 进行 交易 的 公司 开 了 一 次 电话 会 议 ， 会 议 _ 


并 没有 令 投资 人 满意 。 该 股 开盘 价 相对 前 一 天 封 盘 价 暴 哄 22%。 下 面 看 下 上 述 A 在 推 文 
中 体现 : 


>>> for 七 in listOfTerms: 

print 七 
set([u'rimm', u'day'])} 
set({u'rimm', u'earnings']) 
set{[u'pounding', u'value']) 
set([u'pounding', u’'overnight']) 
set([u'pounding', u'drops']) 
set([u'pounding', u'shares']) 
set ({u'pounding', u'are']) 





| 
| 
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set{([u'overnight']) 

set ([u'Gdrops', u'overnight']) 

set({u'motion', u'drops', u'overnight']) 

set ([u'motion', u'drops', u'overnight', u'value']) 
set([u'drops', u'overnight', u'research']) 

set ([u'drops', u'overnight', u'value', u'research']) 

set ([u'motion', u'drops', u'overnight', u'value', u'research']) 
set([u'motion', u'drops', u'overnight', u'research']) 

set ([u'drops', u'overnight’', u'value']) 


”尝试 一 些 其 他 的 minsupport 值 或 者 搜索 词 也 是 蛮 有 趣 的 。 


我 们 还 记得 FP 树 的 构建 是 通过 每 次 应 用 一 个 实例 的 方式 来 完成 的 ,这 里 假设 已 经 获得 了 所 有 
数据 ， 所 以 刚才 是 直接 遍历 所 有 的 数据 来 构建 FP 树 的 。 实 际 上 可 以 重 写 createTree () 函数 ,每 
次 读 和 人 一 个 实例 ， 并 随 着 Twitter 流 的 不 断 输入 而 不 断 增长 树 。FP-growth 算 法 还 有 一 个 map-reduce 
版 本 的 实现 , 它 也 很 不 错 , 可 以 扩展 到 多 台 机 器 上 运行 。Google 使 用 该 算法 通过 饥 历 大 量 文本 来 
发 现 频繁 共 现 词 ， 其 做 法 和 我 们 刚才 介绍 的 例子 非常 类 似 ?。 


12.5 示例 : 从 新 闻 网 站 点 击 流 中 挖掘 


好 了 ， 本 章 的 最 后 一 个 例子 很 酷 ， 而 你 有 可 能 正在 想 :“ 伙 计 ， 这 个 算法 应 该 很 快 ， 因 为 只 
有 1400 条 推 文 !” 你 的 想法 是 正确 的 。 下 面 在 更 大 的 文件 上 看 下 运行 效果 。 在 源 数据 集合 中 ， 有 
一 个 kosarak ,dat 文件 ， 它 包含 将 近 100 万 条 记录 8。 该 文件 中 的 每 一 行 包含 某 个 用 户 浏览 过 的 新 闻 
报道 。 一 些 用 户 只 看 过 一 篇 报道 , 而 有 些 用 户 看 过 2498 篇 报道 。 用 户 和 报道 被 编码 成 整数 ， 所 以 
查看 频繁 项 集 很 难得 到 更 多 的 东西 ， 但 是 该 数据 对 于 展示 FP-growth 算 法 的 速度 十 分 有 效 。 

首先 ， 将 数据 集 导 和 人 到 列表 ， 

>>> parsedDat = [line,split() for line in open('kosarak.dat').readlines({)] 
接 下 来 需要 对 初始 集合 格式 化 : 

>>> initSet = fpGrowth.createInitSet (parsedDat) 
然后 构建 FP 树 ， 并 从 中 寻找 那些 至 少 被 10 万 人 浏览 过 的 新 闻 报 道 。 

>>> myFPtree, myHeaderTab = fpGrowth.createTree (initSet， 100000) 

在 我 这 台 简 陋 的 笔记 本 电脑 上 ， 构 建树 以 及 扫描 100 万 行 只 需要 几 秒 钟 ， 这 展示 了 FP-growth 
算法 的 强大 威力 。 下 面 需 要 创建 一 个 空 列 表 来 保存 这 些 频繁 项 集 : 


>>> myFreqList = [] 
>>> fpGrowth.mineTree (myFPtree, myHeaderTab, 100000, set([]), myFreqList) 


接 下 来 看 下 有 多 少 新 闻 报道 或 报道 集合 曾经 被 10 万 或 者 更 多 的 人 浏览 过 ; 





© H. Li, Y. Wang, D. Zhang, M. Zhang, E. Chang, “PFP: Parallel FP-Growth for Query Recommendation,” RecSys’08, Proceedings of 
the 2008 ACM Conference on Recommender Systems; http://infolab.stanford.edu/~ echang/recsys08-69.pdf. 

@ Hungarian online news portal clickstream retrieved July 11, 2011; from Frequent Itemset Mining Dataset Repository, 
http://fimi.ua.ac.be/data/, donated by Ferenc Bodon. 
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>>> len(myFreqList) 
9 


总 共有 9 个 。 下 面 看 看 都 是 哪些 ; 
>>> myFreqList 


[set ({'1']), set(['1', '6']), set(['3'1}), set(['11', '3']), set(['11i', '3', 
1611), set({'3', '6']), set([('11']), set(['11', '6']), set(['6'])] 


可 以 使 用 其 他 设置 来 查看 运行 结果 ， 比 如 降低 置信 度 级 别 。 
12.6 ”本 章 小 结 


FP-growth 算 法 是 一 种 用 于 发 现 数据 集中 频繁 模式 的 有 效 方法 。FP-growth 算 法 利用 Apriori 原 
则 ， 执 行 更 快 。Apriori 算 法 产生 候选 项 集 ， 然 后 扫 朱 数据 集 来 检查 它们 是 否 频繁 。 由 于 只 对 数据 
集 扫描 两 次 ， 因 此 FP-growth 算 法 执行 更 快 。 在 FP-growth 算 法 中 ， 数 据 集 存储 在 一 个 称 为 FP 树 的 
结构 中 。FP 树 构建 完成 后 ， 可 以 通过 查找 元 素 项 的 条 件 基 及 构建 条 件 FP 树 来 发 现 频繁 项 集 。 该 
过 程 不 断 以 更 多 元 素 作 为 条 件 重复 进行 ， 直 到 FP 树 只 包含 一 个 元 素 为 止 。 

可 以 使 用 FP-growth 算 法 在 多 种 文本 文档 中 查找 频繁 单词 Twitter 网 站 为 开发 者 提供 了 大 量 的 
API 来 使 用 他 们 的 服务 。 利 用 Python 模块 python-Twitter 可 以 很 容易 访问 Twitter。 在 Twitter 源 
上 对 某 个 话题 应 用 FP-growth 算 法 ， 可 以 得 到 一 些 有 关 该 话题 的 摘要 信息 。 频 繁 项 集 生 成 还 有 其 
他 的 一 些 应 用 ， 比 如 购物 交易 、 医 学 诊断 及 大 气 研 究 等 。 

下 面 几 章 会 介绍 一 些 附属 工具 。 第 13 章 和 第 14 章 会 介绍 一 些 降 维 技术 , 使 用 这 些 技术 可 以 提 
炼 数据 中 的 重要 信息 并 且 移 除 噪声 。 第 14 章 会 介绍 Map Reduce 技 术 ， 当 数据 量 超过 单 台 机 器 的 处 
理 能 力 时 ， 将 会 需要 这 些 技术 。 
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本 书 第 四 部 分 即 是 最 后 一 部 分 ， 主 要 介绍 在 机 器 学 习 实 践 时 常用 的 一 些 其 他 工具 ， 它 们 可 
以 应 用 于 前 三 部 分 的 算法 上 。 这 些 工 具 还 包括 了 可 以 对 前 三 部 分 中 任 一 算法 的 输入 数据 进行 预 
处 理 的 降 维 技术 。 这 一 部 分 还 包括 了 在 上 千 台 机 器 上 分 配 作业 的 Map Reduce 技术 。 

降 维 的 目标 就 是 对 输入 的 数目 进行 前 减 ， 由 此 剔除 数据 中 的 噪声 并 提高 机 器 学 习 方 法 的 性 
能 。 第 13 章 将 介绍 按照 数据 方差 最 大 方向 调整 数据 的 主 成 分 分 析 降 维 方法 。 第 14 章 解释 奇异 
值 分 解 ， 它 是 矩阵 分 解 技术 中 的 一 种 ， 通 过 对 原始 数据 的 逼近 来 达到 降 维 的 目的 。 

第 15 章 是 本 书 的 最 后 一 章 ， 主 要 讨论 了 在 大 数据 下 的 机 器 学 习 。 大 数据 (big data) 指 的 
就 是 数据 集 很 大 以 至 于 内 存 不 足以 将 其 存放 。 如 果 数 据 不 能 在 内 存 中 存放 ， 那 么 在 内 存 和 磁盘 
之 间 传 输 数据 时 就 会 浪费 大 量 的 时 间 。 为 了 避免 这 一 点 ， 我 们 就 可 以 将 整个 作业 进行 分 片 ， 这 
样 就 可 以 在 多 机 下 进行 并 行 处 理 。Map Reduce 就 是 实现 上 述 过 程 的 一 种 流行 的 方法 ， 它 将 作业 
分 成 了 Map 任务 和 Reduce 任务 。 第 15 章 将 介绍 Python 中 Map Reduce 实现 的 一 些 常 用 工具 ， 
同时 也 介绍 了 将 机 器 学 习 转 换 成 满足 Map Reduce 编程 范式 的 方法 。 
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本 章 内 容 

口 降 维 技术 

口 主 成 分 分 析 (PCA ) 

口 对 半导体 数据 进行 降 维 处 理 


想象 这 样 一 种 场景 : 我 们 正 通过 电视 而 非 现场 观看 体育 比赛 ， 在 电视 的 纯 平 显示 器 上 有 一 个 
球 。 显 示 器 大 概 包含 了 100 万 像素 ， 而 球 则 可 能 是 由 较 少 的 像素 组 成 的 ， 比如 说 一 千 个 像素 。 在 
大 部 分 体育 比赛 中 , 我 们 关注 的 是 给 定时 刻 球 的 位 置 。 人 的 大 脑 要 想 了 解 比赛 的 进展 ， 就 需要 了 
解 球 在 运动 场 中 的 位 置 。 对 于 人 来 说 ， 这 一 切 显 得 十 分 自然 ， 甚 至 都 不 需要 做 任何 思考 。 在 这 个 
场景 当中 ,人 们 实时 地 将 显示 器 上 的 百 万 像素 转换 成 为 了 一 个 三 维 图 像 ， 该 图 像 就 给 出 了 运动 场 
上 球 的 位 置 。 在 这 个 过 程 中 ， 人 们 已 经 将 数据 从 一 百 万 维 降 至 了 三 维 。 

在 上 述 体育 比赛 的 例子 中 , 人 们 面 对 的 原本 是 百 万 像素 的 数据 , 但 是 只 有 球 的 三 维 位 置 才 最 
重要 ， 这 就 被 称 为 降 维 ( dimensionality reduction )。 刚 才 我 们 将 超 百 万 的 数据 值 降 到 了 只 有 三 个 
相关 值 。 在 低 维 下 ， 数据 更 容易 进行 处 理 。 另外， 其 相关 特征 可 能 在 数据 中 明确 地 显示 出 来 。 通 
常 而 言 ， 我 们 在 应 用 其 他 机 器 学 习 算法 之 前 ， 必 须 先 识别 出 其 相关 特征 。 

本 章 是 涉及 降 维 主题 的 两 章 中 的 第 一 章 。 在 降 维 中 , 我们 对 数据 进行 了 预 处 理 。 之 后 , 采用 
其 他 机 器 学 习 技 术 对 其 进行 处 理 。 本 章 一 开始 对 降 维 技术 进行 了 综述 , 然后 集中 介绍 一 种 应 用 非 
常 普遍 的 称 为 主 成 分 分 析 的 技术 。 最 后 ， 我 们 就 通过 一 个 数据 集 的 例子 来 展示 PCA 的 工作 过 程 。 
经 过 PCA 处 理 之 后 ， 该 数据 集 就 从 590 个 特征 降低 到 了 6 个 特征 。 


13.1 降 维 技术 


始终 贯穿 本 书 的 一 个 难题 就 是 对 数据 和 结果 的 展示 , 这 是 因为 这 本 书 只 是 二 维 的 , 而 在 通常 
的 情况 下 我 们 的 数据 不 是 如 此 。 有 时 我 们 会 显示 三 维 图 像 或 者 只 显示 其 相关 特征 , 但 是 数据 往往 
拥有 超出 显示 能 力 的 更 多 特征 。 数据 显示 并 非 大 规模 特征 下 的 唯一 难题 , 对 数据 进行 简化 还 有 如 
下 一 系列 的 原因 : 

口 使 得 数据 集 更 易 使 用 ; 
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口 降低 很 多 算法 的 计算 开销 ; 
口 去 除 噪声 ; 

口 使 得 结果 易 懂 。 

在 已 标注 与 未 标注 的 数据 上 都 有 降 维 技术 。 这 里 我 们 将 主要 关注 未 标注 数据 上 的 降 维 技术 ， 
该 技术 同时 也 可 以 应 用 于 已 标注 的 数据 。. 

第 一 种 降 维 的 方法 称 为 主 成 分 分 析 ( Principal Component Analysis，PCA )。 在 PCA 中 ， 数 据 
从 原来 的 坐标 系 转换 到 了 新 的 坐标 系 , 新 坐标 系 的 选择 是 由 数据 本 身 决定 的 。 第 一 个 新 坐标 轴 选 
择 的 是 原始 数据 中 方差 最 大 的 方向 , 第 二 个 新 坐标 轴 的 选择 和 第 一 个 坐标 轴 正 交 且 具有 最 大 方差 
的 方向 。 该 过 程 一 直 重 复 , 重复 次 数 为 原始 数据 中 特征 的 数目 。 我 们 会 发 现 ， 大 部 分 方差 都 包含 
在 最 前 面 的 几 个 新 坐标 轴 中 。 因 此 ， 我 们 可 以 忽 咯 余下 的 坐标 轴 ， 即 对 数据 进行 了 降 维 处 理 。 在 
13.2 节 我 们 将 会 对 PCA 的 细节 进行 深入 介绍 。 

另外 一 种 降 维 技术 是 因子 分 析 ( Factor Analysis )。 在 因子 分 析 中 ， 我 们 假设 在 观察 数据 的 生 
成 中 有 一 些 观察 不 到 的 隐 变 量 ( latent variable )。 假 设 观察 数据 是 这 些 隐 变 量 和 某 些 噪声 的 线性 
组 合 。 那 么 隐 变 量 的 数据 可 能 比 观 察 数据 的 数目 少 , 也 就 是 说 通过 找到 隐 变 量 就 可 以 实现 数据 的 
降 维 。 因 子 分 析 已 经 应 用 于 社会 科学 、 金 融和 其 他 领域 中 了 。 

”还 有 一 种 降 维 技术 就 是 独立 成 分 分 析 ( Independent Component Analysis，ICA )。ICA 假 设 数 
据 是 从 N 个 数据 源 生成 的 , 这 一 点 和 因子 分 析 有 些 类 似 。 假设 数据 为 多 个 数据 源 的 混合 观察 结果 ， 
这 些 数 据 源 之 间 在 统计 上 是 相互 独立 的 ， 而 在 PCA 中 只 假设 数据 是 不 相关 的 。 同 因子 分 析 一 样 ， 
如 果 数 据 源 的 数目 少 于 观察 数据 的 数目 ， 则 可 以 实现 降 维 过 程 。 

在 上 述 3 种 降 维 技术 中 ，PCA 的 应 用 目前 最 为 广泛 ， 因 此 本 章 主要 关注 PCA。 在 下 一 节 中 ， 
我 们 将 会 对 PCA 进 行 介绍 ， 然 后 再 通过 一 段 Python 代 码 来 运行 PCA。 
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优点 : 降低 数据 的 复杂 性 ， 识 别 最 重要 的 多 个 特征 。 
缺点 ; 不 一 定 需要 ， 且 可 能 损失 有 用 信息 。 
适用 数据 类 型 ， 数值 型 数据 。 
首先 我 们 讨论 PCA 背 后 的 一 些 理 论 知识 ， 然 后 介绍 如 何 通 过 Python 的 NumPy 来 实现 PCA。 


13.2.1 ”移动 坐标 轴 


考虑 一 下 图 13-1 中 的 大 量 数据 点 。 如 果 要 求 我 们 画 出 一 条 直线 , 这 条 线 要 尽 可 能 覆盖 这 些 点 ， 
那么 最 长 的 线 可 能 是 哪 条 ? 我 做 过 多 次 尝试 。 在 图 13-1 中 ，3 条 直线 中 B 最 长 。 在 PCA 中 ， 我们 对 
数据 的 坐标 进行 了 旋转 , 该 旋转 的 过 程 取 决 于 数据 的 本 身 。 第 一 条 坐标 轴 旋 转 到 覆盖 数据 的 最 大 
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方差 位 置 ， 即 图 中 的 直线 B。 数据 的 最 大 方差 给 出 了 数据 的 最 重要 的 信息 。 

在 选择 了 覆盖 数据 最 大 差异 性 的 坐标 轴 之 后 ， 我 们 选择 了 第 二 条 坐标 轴 。 假 如 该 坐标 轴 与 第 
一 条 坐标 轴 垂 直 , 它 就 是 覆盖 数据 次 大 差异 性 的 坐标 轴 。 这 里 更 严谨 的 说 法 就 是 正 交 (orthogonal )。 
当然 ,在 二 维 平面 下 ,垂直 和 正 交 是 一 回 事 。 在 图 13-1 中 ， 直线 C 就 是 第 二 条 坐标 轴 。 利 用 PCA， 


我 们 将 数据 坐标 轴 旋 转 至 数据 角度 上 的 那些 最 重要 的 方向 。 
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图 13-1 覆盖 整个 数据 集 的 三 条 直线 ， 其 中 直线 B 最 长 ， 并 给 出 了 数据 集中 差异 化 最 大 的 方向 


我 们 已 经 实现 了 坐标 轴 的 旋转 , 接 下 来 开始 讨论 降 维 。 坐 标 轴 的 旋转 并 没有 减少 数据 的 维度 。 
考虑 图 13-2， 其 中 包含 着 3 个 不 同 的 类 别 。 要 区 分 这 3 个 类 别 ， 可 以 使 用 决策 树 。 我 们 还 记得 决策 


树 每 次 都 是 基于 一 个 特征 来 做 决策 的 。 我 们 会 发 现 ， 在 xz 轴 上 可 以 找到 一 些 值 ， 这 些 值 能 够 很 好 ， 


地 将 这 3 个 类 别 分 开 。 这 样 ， 我 们 就 可 能 得 到 一 些 规则 ， 比 如 当 (x<4) 时 ， 数据 属于 类 别 0。 如 有 果 
使 用 SVM 这 样 稍微 复杂 一 点 的 分 类 融 ， 我 们 就 会 得 到 更 好 的 分 类 面 和 分 类 规则 ， 比 如 当 (w0*x + 
wlxy + b) > 0 时 ， 数 据 也 属于 类 别 0。SVM 可 能 比 决策 树 得 到 更 好 的 分 类 间隔 ， 但 是 分 类 超 平 
面 却 很 难 解释 。 

通过 PCA 进 行 降 维 处 理 , 我 们 就 可 以 同时 获得 SVM 和 决策 树 的 优点 : 一 方面 ,得 到 了 和 决策 
树 一 样 简单 的 分 类 器 ,同时 分 类 间隔 和 SVM 一 样 好 。 考 察 图 13-2 中 下 面 的 图 ， 其 中 的 数据 来 自 于 
上 面 的 图 并 经 PCA 转 换 之 后 绘制 而 成 的 。 如 果 仅 使 用 原始 数据 , 那么 这 里 的 间隔 会 比 决策 树 的 间 
隔 更 大 。 另 外 , 由 于 只 需要 考虑 一 维 信息 ,因此 数据 就 可 以 通过 比 SVM 简单 得 多 的 很 容易 采用 的 
规则 进行 区 分 。 


13.2 PCA 245 








0.0008 

0.0006 

0.0004 

0.0002 | 

0.0000 人 OV TCD 了 
-0.0002 


-0.000420 is -10 -5 0 5 10 15 20 


图 13-2 二 维 空间 的 3 个 类 别 。 当 在 该 数据 集 上 应 用 PCA 时 ， 就 可 以 去 掉 一 维 ， 从 而 使 得 该 
分 类 问题 变 得 更 容易 处 理 


在 图 13-2 中 ， 我 们 只 需要 一 维 信息 即 可 ， 因 为 另 一 维 信息 只 是 对 分 类 缺乏 贡献 的 噪声 数据 。 
在 二 维 平面 下 ， 这 一 点 看 上 去 微不足道 ， 但 是 如 果 在 高 维 空间 下 则 意义 重大 。 

我 们 已 经 对 PCA 的 基本 过 程 做 出 了 简单 的 阐述 ， 接 下 来 就 可 以 通过 代码 来 实现 PCA 过 程 。 前 
面 我 曾 提 到 的 第 一 个 主 成 分 就 是 从 数据 差异 性 最 大 ( 即 方差 最 大 ) 的 方向 提取 出 来 的 , 第 二 个 主 
成 分 则 来 自 于 数据 差异 性 次 大 的 方向 ,并 且 该 方向 与 第 一 个 主 成 分 方向 正 交 。 通 过 数据 集 的 协 方 
差 矩 阵 及 其 特征 值 分 析 ， 我 们 就 可 以 求 得 这 些 主 成 分 的 值 。 

一 日 得 到 了 协 方差 矩阵 的 特征 向 量 ， 我 们 就 可 以 保留 最 大 的 N 个 值 。 这 些 特征 向 量 也 给 出 了 
N 个 最 重要 特征 的 真实 结构 。 我 们 可 以 通过 将 数据 乘 上 这 N 个 特征 向 量 而 将 它 转换 到 新 的 空间 。 

3 到 {A 小 : Sa : - a > 人 | 
特征 值 分 析 是 线性 代数 中 的 一 个 领域 ， 它 能 够 通过 数据 的 一 般 格式 来 揭示 数据 的 “真实 
| 结构 ， 即 我 们 常 说 的 特征 向 量 和 特征 值 。 在 等 式 Av = Xv 中 ，v 是 特征 向 量 ， 和 是 特征 值 。 特 
征 值 都 是 简单 的 标量 值 ， 因 此 Av = Av 代表 的 是 ， 如 果 特 征 向 量 v 被 某 个 矩阵 R 左 冬 ， 那 么 它 就 
等 于 某 个 标量 和 乘 以 v。 幸 运 的 是 ， NumPy 中 有 寻找 特征 向 量 和 特征 值 的 模块 linalg， 它 有 
“eig () 方 法 ,该 方法 用 于 求解 特征 向 量 和 特征 值 。 : : 
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13.2.2 在 NumPy 中 实现 PCA 


将 数据 转换 成 前 N 个 主 成 分 的 伪 码 大 致 如 下 : 


去 除 平均 值 

计算 协 方差 还 阵 

计算 协 方差 矩阵 的 特征 值 和 特征 向 量 

将 特征 值 从 大 到 小 排序 

保留 最 上 面 的 N 个 特征 向 量 

将 数据 转换 到 上 述 N 个 特征 向 量 构 建 的 新 空间 中 

建立 一 个 名 为 pca.py 的 文件 并 将 下 列 代码 加 入 用 于 计算 PCA。 


程序 清单 13-1 PCA 算 法 
from numpy import * 
def loadDataSet (fileName, delim='\t'): 
fr = open (fileName) 
stringArr = [line.strip() .split (delim) for line in fr.readlines()] 
datArr = {map(float,line) for line in stringArr] 
return mat (datArr) 


def pca{ldataMat, topNfeat=9999999): 
meanVals = mean(dataMat, axis=0) 
meanRemoved = dataMat - meanVals 
covMat = cov (meanRemoved, rowvar=0) 
eigVvals,eigVects = linalg.eig (mat (covMat)) 
eigValIind = argsort (eigVals) 
eigValInd = eigVvalInd[:- (topNfeat+1):-1] 
redpigVects = eigVvects{:,eigvalrndl] 
lowDDataMat = meanRemoved * redEigVects 


reconMat = (lowDDataMat * redEigVects.T) + meanVals “8 将 数据 转换 到 新 空间 


return lowDDataMat, reconMat 
程序 清单 13-1 中 的 代码 包含 了 通常 的 Numpy 导 入 和 1oadDataSet () 函数 。 这 里 的 1oad- 
Datagset () 函数 和 前 面 章节 中 的 版 本 有 所 不 同 , 因为 这 里 使 用 了 两 个 list comprehension 来 构建 矩 阵 。 
.pca() 函数 有 两 个 参数 . 第 一 个 参数 是 用 于 进行 PCA 操 作 的 数据 集 ， 第 二 个 参数 FopNfeat 
则 是 一 个 可 选 参数 , 即 应 用 的 NM 个 特征 。 如 果 不 指定 opNfeat 的 值 ,那么 函数 就 会 返回 前 9 999 999 
个 特征 ， 或 者 原始 数据 中 全 部 的 特征 。 
首先 计算 并 减 去 原始 数据 集 的 平均 值 @。 然 后 ， 计 算 协 方差 算 阵 及 其 特征 值 ， 接 着 利用 
argsort() 函数 对 特征 值 进行 从 小 到 大 的 排序 。 根据 特征 值 排序 结果 的 逆序 就 可 以 得 到 
topNfeat 个 最 大 的 特征 向 量 @。 这 些 特征 向 量 将 构成 后 面 对 数 据 进行 转换 的 矩阵 ， 该 矩阵 则 利 
用 N 个 特征 将 原始 数据 转换 到 新 空间 中 @@。 最 后 ， 原 始 数据 被 重 构 后 返回 用 于 调试 ， 同 时 降 维 之 
后 的 数据 集 也 被 返回 了 。 
一 切 都 看 上 去 不 错 , 是 不 是 ? 在 进入 规模 更 大 的 例子 之 前 , 我们 先 看 看 上 面 代 码 的 运行 效果 


A 从 小 到 大 对 NN 个 值 排序 
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以 确保 其 结果 正确 无 误 。 

>>> import pca 

我 们 在 testSet.txt 文 件 中 加 入 一 个 由 1000 个 数据 点 组 成 的 数据 集 , 并 通过 如 下 命令 将 该 数据 集 
调 人 内 存 : 

>>> dataMat = pca.loadDataSet ('testSet.txt') 
于 是 ,我们 就 可 以 在 该 数据 集 上 进行 PCA 操 作 : 


>>> lowDMat, reconMat = pca.pca(ldataMat, 1) 


lowDpMat 包 含 了 降 维 之 后 的 和 矩阵， 这 里 是 个 一 维和 矩阵 ， 我 们 通过 如 下 命令 进行 检查 
>>> Shape (lowDMat) 
(1000, 1) 
我 们 可 以 通过 如 下 命令 将 降 维 后 的 数据 和 原始 数据 一 起 绘制 出 来 : 
>>> import matplotlib 
>>>import matplotlib.pyplot as plt 
fig = plt.figure!{) 
ax = fig.add subplot (111) 
>>> ax.scatter (dataMat [:,0] .flatten() .A[0], dataMat [:,1] .flatten{() .A[0], 
marker='^', s=90) 
<matplot1lib,collections.PathCollection object at 0x029B5C50> 
>>> ax.Scatter(zeconMat [:,0] .flatten() .A[0], reconMat [:,1] .flatten().A[0], 
marker='o', 8=50, c='red') 
<matplotlib.collections.PathCollection object at 0x0372A210>plt .show() 


我 们 应 该 会 看 到 和 图 13-3 类 似 的 结果 。 使 用 如 下 命令 来 替换 原来 的 PCA 调 用 ， 并 重复 上 述 过程 

>>> lowDMat, reconMat = pca.pca(dataMat，2) 

既然 没有 剔除 任何 特征 ， 那 么 重 构 之 后 的 数据 会 和 原始 的 数据 重合 。 我 们 也 会 看 到 和 图 13-3 
类 似 的 结果 ( 不 包含 图 13-3 中 的 直线 )。 





一 4 





和 6 7 8 9 10 1 2 13 14 


图 13-3 ”原始 数据 集 ( 三 角形 点 表示 ) 及 第 一 主 成 分 圆 形 点 表示 ) 
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13.3 示例; 利用 PCA 对 半导体 制造 数据 降 维 


半导体 是 在 一 些 极为 先进 的 工厂 中 制造 出 来 的 。 工 厂 或 制造 设备 不 仅 需 要 花费 上 亿美 元 ,而 
日 还 需要 大 量 的 工人 。 制造 设备 仅 能 在 几 年 内 保持 其 先进 性 ， 随 后 就 必须 更 换 了 。 单个 集成 电路 
的 加 工时 间 会 超过 一 个 月 。 在 设备 生命 期 有 限 ， 花费 又 极其 巨大 的 情况 下 , 制造 过 程 中 的 每 一 秒 
钟 都 价值 巨大 。 如 果 制 造 过 程 中 存在 瑕 症 ， 我 们 就 必须 尽早 发 现 ， 从 而 确保 宝贵 的 时 间 不 会 花费 
在 缺陷 产品 的 生产 上 。 

一 些 工程 上 的 通用 解决 方案 是 通过 早期 测试 和 频繁 测试 来 发 现 有 缺陷 的 产品 , 但 仍然 有 一 些 
存在 形 疫 的 产品 通过 了 测试 。 如 果 机 器 学 习 技 术 能 够 用 于 进一步 减少 错误 ， 那么 它 就 会 为 制造 商 
节省 大 量 的 资金 。 

接 下 来 我 们 将 考察 面向 上 述 任务 中 的 数据 集 ， 而 它 也 比 前 面 使 用 的 数据 集 更 大 ,并 且 包含 了 
许多 特征 。 具 体 地 讲 ， 它 拥有 590 个 特征 ?。 我 们 看 看 能 否 对 这 些 特征 进行 降 维 处 理 。 读 者 也 可 以 
通过 http://archive.ics.uci.edu/ml/machine-learning-databases/secom/ 得 到 该 数据 集 。 

该 数据 包含 很 多 的 缺失 值 。 这 些 缺 失 值 是 以 NaN (Not a Number 的 缩写 ) 标识 的 。 对 于 这 些 
缺失 值 ， 我 们 有 一 些 处 理 办 法 (参考 第 5 章 )。 在 590 个 特征 下 ， 几 乎 所 有 样本 都 有 NaN ， 因 此 去 
除 不 完整 的 样本 不 太 现实 。 尽 管 我 们 可 以 将 所 有 的 NaN 竺 换 成 0， 但 是 由 于 并 不 知道 这 些 值 的 意 
义 ， 所 以 这 样 做 是 个 下 策 。 如 果 它 们 是 开 氏 温度 ， 那 么 将 它们 置 成 0 这 种 处 理 策略 就 太 差劲 了 。 
下 面 我 们 用 平均 值 来 代替 缺失 值 ， 平 均值 根据 那些 非 NaN 得 到 。 

将 下 列 代码 添加 到 pca.py 文 件 中 。 


程序 清单 13-2 ”将 NaN 蔡 换 成 平均 值 的 函数 


def replaceNanWithMean(): 
datMat = loadDataSet ('secom.data', ' ') 计算 所 有 非 NaN 的 平均 值 
numFeat = shape (datMat) [1] 
for i in range (numFeat): 
meanVal = mean(datMat [nonzero (~isnan (datMat [:,i] .A)) [0] ,i]) 


datMat [nonzero (isnan (datMat [:,i] .A)) [0] ,i] = meanVal 
将 所 有 NaN 置 为 平均 值 6 


上 述 代码 首先 打开 了 数据 集 并 计算 出 了 其 特征 的 数目 , 然后 再 在 所 有 的 特征 上 进行 循环 。 对 
于 每 个 特征 ， 首 先 计算 出 那些 非 NaN 值 的 平均 值 @。 然 后 ， 将 所 有 NaN 兰 换 为 该 平均 值 @。 

我 们 已 经 去 除了 所 有 NaN， 接 下 来 考虑 在 该 数据 集 上 应 用 PCA。 首 先 确认 所 需 特 征 和 可 以 去 
除 特 征 的 数目 。PCA 会 给 出 数据 中 所 包含 的 信息 量 。 需 要 特别 强调 的 是 ， 数 据 〈 data ) 和 信息 
(information ) 之 间 具 有 巨大 的 差别 。 数 据 指 的 是 接受 的 原始 材料 ， 其 中 可 能 包含 噪声 和 不 相关 


return datMat 





@D SECOM Data Set retrieved from the UCI Machine Leaming Repository: http://archive.ics.uci.edu/ml/datasets/SECOM on 
June 1, 2011. 
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信息 。 信 息 是 指数 据 中 的 相关 部 分 。 这 些 并 非 只 是 抽象 概念 , 我 们 还 可 以 定量 地 计算 数据 中 所 包 
含 的 信息 并 决定 保留 的 比例 。 

下 面 看 看 该 如 何 实现 这 一 点 。 首 先 ， 利 用 程序 清单 13-2 中 的 代码 将 数据 集中 所 有 的 NaN 替 换 
成 平均 值 : 


dataMat = Pca.replaceNanWithMean() 


接 下 来 从 pca () 函数 中 借用 一 些 代码 来 达到 我 们 的 目的 ， 之 所 以 借用 是 办 为 我 们 想 了 解 中 加 
结果 而 非 最 后 输出 结果 。 首 先 调用 如 下 语句 去 除 均 值 : 


meanVals = mean(dataMat, axis=0)} 
meanRemoved = dataMat - meanVals 


然后 计算 协 方差 矩阵 ; 


covMat = cov{(meanRemoved, rowvar=0) 
最 后 对 该 矩阵 进行 特征 值 分 析 ;: 
eigVals,eigVects = linalg.eig{(mat (covMat)) 


现在 ， 我 们 可 以 观察 一 下 特征 值 的 结果 
>>> eigVals 
array([ 5.34151979e+07, 2.17466719e+07,， 8,24837662e+06， 
2.07388086e+06， 1.31540439e+06, 4.67693557e+05, 
2.90863555e+05, 2.83668601e+05, 2.37155830e+05， 
2.08513836e+05, 1.96098849e+05, 1.86856549e+05, 


00000000e+00， 0.00000000e+00， 


0.00000000e+00， 0 ， 

0.00000000e+00, 0.00000000e+00， 0.00000000e+00， 
0.00000000e+00， 0.00000000e+00， 0.00000000e+00， 
0.00000000et+00， 0.00000000e+00， 0.00000000e+00， 
0.00000000e+00， 0.00000000€e+00]) 


我 们 会 看 到 一 大 堆 值 ， 但 是 其 中 的 什么 会 引起 我 们 的 注意 ? 我 们 会 发 现 其 中 很 多 值 都 是 0 
吗 ? 实际 上 ， 其 中 有 超过 20% 的 特征 值 都 是 9。 这 就 意味 着 这 些 特 征 都 是 其 他 特征 的 副本 ， 也 就 
是 说 ， 它 们 可 以 通过 其 他 特征 来 表示 ， 而 本 身 并 没有 提供 额外 的 信息 。 

接 下 来 ,我 们 了 解 一 下 部 分 数值 的 数量 级 。 最 前 面 15 个 值 的 数量 级 大 于 105， 实际 上 那 以 
后 的 值 都 变 得 非常 小 。 这 就 相当 于 告诉 我 们 只 有 部 分 重要 特征 ， 重 要 特征 的 数目 也 很 快 就 会 
下 降 。 

最 后 ， 我 们 可 能 会 注意 到 有 一 些小 的 负 值 ， 它 们 主要 源 自 数值 误差 应 该 四 舍 五 人 成 0。 

在 图 13-4 中 已 经 给 出 了 总 方差 的 百分比 ， 我 们 发 现 ， 在 开始 几 个 主 成 分 之 后 ， 方 差 就 会 迅 
速 下 降 。 
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图 13-4 ”前 20 个 主 成 分 占 总 方差 的 百分比 。 可 以 看 出 ， 大 部 分 方差 都 包含 在 前 面 的 几 个 主 成 

分 中 , 舍弃 后 面 的 主 成 分 并 不 会 损失 太 多 的 信息 。 如 果 保 留 前 6 个 主 成 分 ， 则 数据 集 
可 以 从 590 个 特征 约 简 成 6 个 特征 ， 大 概 实现 了 100 : 1 的 压缩 
表 13-1 给 出 了 这 些 主 成 分 所 对 应 的 方差 百分比 和 累积 方差 百分比 。 浏览 “累积 方差 百分比 
(%》 这 一 列 就 会 注意 到 ,前 六 个 主 成 分 就 覆盖 了 数据 96.8% 的 方差 ， 而 前 20 个 主 成 分 覆盖 了 99.3% 
的 方差 。 这 就 表明 了 ， 如 果 保留 前 6 个 而 去 除 后 584 个 主 成 分 , 我 们 就 可 以 实现 大 概 100 : 1 的 压缩 
比 。 另 外 ， 由 于 舍弃 了 噪声 的 主 成 分 ， 将 后 面 的 主 成 分 去 除 便 使 得 数据 更 加 干净 。 


表 13-1 半导体 数据 中 前 7 个 主 成 分 所 占 的 方差 百分比 


主 成 分 方差 百分比 〈%) 累积 方差 百分比 〈%) 
1 59.2 59.2 
2 24.1 83.4 
3 92 92.5 
4 2.3 94.8 
5 1.5 96.3 
6 0.5 96.8 
7 0.3 97.1 
20 0.08 99.3 


13.4 本 章 小 结 251 








断 信 来 检验 它们 的 性 能 。 有 些 人 使 用 能 包含 90% 信 息 量 的 主 成 分 数量 ， 而 其 他 人 使 用 前 20 个 主 成 
分 。 我 们 无 法 精确 知道 所 需要 的 主 成 分 数目 ， 必 须 通过 在 实验 中 取 不 同 的 值 来 确定 。 有 效 的 主 成 
分 数目 则 取决 于 数据 集 和 具体 应 用 。 

上 述 分 析 能 够 得 到 所 用 到 的 主 成 分 数目 ,然后 我 们 可 以 将 该 数目 输入 到 PCA 算 法 中 ,最 后 得 
到 约 简 后 数据 就 可 以 在 分 类 器 中 使 用 了 。 
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降 维 技术 使 得 数据 变 得 更 易 使 用 , 并 且 它 们 往往 能 够 去 除数 据 中 的 噪声 , 使 得 其 他 机 器 学 习 
0 降 维 往往 作为 预 处 理 步骤 ,在 数据 应 用 到 其 他 算法 之 前 清洗 数据 。 有 很 多 技术 可 
维 , 在 这 些 技术 中 ， 独 立成 分 分 析 、 因 子 分 析 和 和 主 成 分 分 析 比 较 流行 ; 
成 分 分 析 应 用 最 广泛 。 ee 
| PCA 可 以 从 数据 中 识别 其 主要 特征 ， 它 是 通过 沿 着 数据 最 大 方差 方向 旋转 坐标 轴 来 实现 的 。 
选择 方差 最 大 的 方向 作为 第 一 条 坐标 轴 ， 后 续 坐 标 轴 则 与 前 面 的 坐标 轴 正 交 。 协 方差 矩阵 上 的 特 
征 值 分 析 可 以 用 一 系列 的 正 交 坐标 轴 来 获取 。 
| 本 章 中 的 PCA 将 所 有 的 数据 集 都 调 人 了 内 存 ， 如 果 无 法 做 到 , 就 需要 其 他 的 方法 来 寻找 其 特 
征 值 。 如 果 使 用 在 线 PCA 分 析 的 方法 ， 你 可 以 参考 一 篇 优秀 的 论文 “Incremental Eigenanalysis for 
Classification””。 下 一 章 要 讨论 的 奇异 值 分 解 方 法 也 可 以 用 于 特征 值 分 析 。 








人 P. Hall, D. Marshall, and R. Martin, “Incremental Eigenanalysis for Classification,” Department of Computer Science 
Cardiff University, 1998 British Machine Vision Conference / 


vol，1，286-95; http:// cit .ist.psu, i 
summary?doi=10.1.1.40.4801. ; OIRO RY 











_ 本章 内 容 
口 SVD 和 矩阵 分 解 
口 推荐 引擎 
口 利用 SVD 提 升 推荐 引擎 的 性 能 


餐馆 可 划分 为 很 多 类 别 ， 比 如 美式 、 中 式 、 日 式 、 牛 排 馆 、 素 食 店 ， 等 等 。 你 是 否 想 过 这 些 
类 别 够 用 吗 ? 或 许 人 们 喜欢 这 些 的 混合 类 别 , 或 者 类 似 中 式 素食 店 那样 的 子 类 别 。 如 何 才能 知道 
到 底 有 多 少 类 餐馆 呢 ? 我 们 也 许可 以 问 问 专家 ? 但 是 倘若 某 个 专家 说 应 该 按照 调料 分 类 , 而 另 一 
个 专家 则 认为 应 该 按照 配料 分 类 , 那 该 怎么 办 呢 ? 忘 了 专家 ， 我 们 还 是 从 数据 着 手 吧 。 我 们 可 以 
对 记录 用 户 关于 餐馆 观点 的 数据 进行 处 理 ， 并 且 从 中 提取 出 其 背后 的 因素 。 

这 些 因素 可 能 会 与 餐馆 的 类 别 、 豪 饪 时 所 用 的 某 个 特定 配料 ， 或 其 他 任意 对 象 一 致 。 然 后 ， 
我 们 就 可 以 利用 这 些 因素 来 估计 人 们 对 没有 去 过 的 餐馆 的 看 法 。 

提取 这 些 信息 的 方法 称 为 奇异 值 分 解 ( Singular Value Decomposition，SVD )。 从 生物 信息 学 
到 金融 学 等 在 内 的 很 多 应 用 中 ，SVD 都 是 提取 信息 的 强大 工具 。 

本 章 将 介绍 SVD 的 概念 及 其 能 够 进行 数据 约 简 的 原因 。 然 后 ， 我 们 将 会 介绍 基于 Python 的 
SVD 实 现 以 及 将 数据 映射 到 低 维 空间 的 过 程 。 再 接 下 来 ,我 们 就 将 学 习 推荐 引擎 的 概念 和 它们 的 
实际 运行 过 程 。 为 了 提高 SVD 的 精度 ,我 们 将 会 把 其 应 用 到 推荐 系统 中 去 ， 该 推荐 系统 将 会 帮助 
人 们 寻找 到 合适 的 餐馆 。 最 后 ， 我 们 讲述 一 个 SVD 在 图 像 压缩 中 的 应 用 例子 。 


14.1 ”SVD 的 应 用 









优点 和 户 ， 
缺点 ; 数据 的 转换 可 能 难以 理解 。 
适用 数据 类 型 : 数值 型 数据 。 
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利用 SVD 实 现 , 我 们 能 够 用 小 得 多 的 数据 集 来 表示 原始 数据 集 。 这样 做 ,实际 上 是 去 除了 品 
声 和 宛 余 信 息 。 当 我 们 试图 节省 空间 时 ， 去 除 信息 就 是 很 崇高 的 目标 了 , 但 是 在 这 里 我 们 则 是 从 
数据 中 抽取 信息 。 基 于 这 个 视角 , 我 们 就 可 以 把 SVD 看 成 是 从 噪声 数据 中 抽取 相关 特征 。 如 果 这 
一 点 听 来 奇怪 ， 也 不 必 担 心 ， 我 们 后 面 会 给 出 若干 SVD 应 用 的 场景 和 方法 ， 解 释 它 的 威力 。 

首先 , 我 们 会 介绍 SVD 是 如 何 通过 隐 性 语义 索引 应 用 于 搜索 和 信息 检索 领域 的 。 然 后 , 我 们 
再 介绍 SVD 在 推荐 系统 中 的 应 用 。 


14.1.1 ” 隐 性 语义 索引 


SVD 的 历史 已 经 超过 上 百 个 年 头 , 但 是 最 近 几 十 年 随 着 计算 机 的 使 用 ， 我 们 发 现 了 其 更 多 的 
使 用 价值 。 最 早 的 SVD 应 用 之 一 就 是 信息 检索 。 我 们 称 利 用 SVD 的 方法 为 隐 性 语义 索引 《Iatent 
Semantic Indexing，LSI) 或 隐 性 语义 分 析 (Latent Semantic Analysis，LSA )。 

在 LSI 中 ， 一 个 矩阵 是 由 文档 和 词语 组 成 的 。 当 我 们 在 该 矩阵 上 应 用 SVD 时 ， 就 会 构建 出 多 
个 奇异 值 。 这 些 奇 异 值 代表 了 文档 中 的 概念 或 主题 , 这 一 特点 可 以 用 于 更 高 效 的 文档 搜索 。 在 词 
语 拼写 错误 时 ， 只 基于 词语 存在 与 否 的 简单 搜索 方法 会 遇 到 问题 。 简单 搜索 的 另 一 个 问题 就 是 同 
义 词 的 使 用 。 这 就 是 说 ， 当 我 们 查找 一 个 词 时 ， 其 同义词 所 在 的 文档 可 能 并 不 会 匹配 上 。 如 果 我 
们 从 上 千 篇 相 似 的 文档 中 抽取 出 概念 ， 那么 同义词 就 会 映射 为 同一 概念 。 


14.1.2 ”推荐 系统 


SVD 的 另 一 个 应 用 就 是 推荐 系统 。 简 单 版 本 的 推荐 系统 能 够 计算 项 或 者 人 之 间 的 相似 度 。 更 
先进 的 方法 则 先 利用 SVD 从 数据 中 构建 一 个 主题 空间 , 然后 再 在 该 空间 下 计算 其 相似 度 。 考 虑 图 
14-1 中 给 出 的 矩阵 ， 它 是 由 餐馆 的 菜 和 品 菜 师 对 这 些 菜 的 意见 构成 的 。 品 菜 师 可 以 采用 1 到 5 之 间 
的 任意 一 个 整数 来 对 菜 评级 。 如 果品 菜 师 没有 尝 过 某 道 菜 ， 则 评级 为 0。 





日 日 
式 手 二 
鳗 炸 寿 烤 据 媳 
旬 鸡 司 牛 猪 鸡 
饭 排 饭 内 肉 排 
Ed | 0 0 0 2 2 
Peter | 0 0 0 3 3 
Tracy | 0 0 0 1 4 
Fan | 1 1 1 0 0 
Ming |2 2 2 0 0 Ming 
Pachi 5 5 5 0 0 Pachi 
Jocelyn 1 1 1 0 0 docalyn 


图 14-1 餐馆 的 菜 及 其 评级 的 数据 。 对 此 和 矩阵 进行 SVD 处 理 则 可 以 将 数据 压缩 到 若干 概念 中 去 。 
. 在 右边 的 矩阵 当中 ， 标 出 了 一 个 概念 











254 第 14 章 利用 SVD 简化 数据 





我 们 对 上 述 矩 阵 进行 SVD 处 理 ， 会 得 到 两 个 奇异 值 (读者 如 果 不 信 可 以 自己 试 试 )。 因 此 ， 
就 会 仿佛 有 两 个 概念 或 主题 与 此 数据 集 相 关联 。 我 们 看 看 能 否 通过 观察 图 中 的 0 来 找到 这 个 矩阵 
的 具体 概念 。 观 察 一 下 右 图 的 阴影 部 分 ， 看 起 来 Ed、Peter 和 Tracy 对 “ 烤 牛 肉 ” 和 “ 手 撕 猪肉 ” 
进行 了 评级 , 同时 这 三 人 未 对 其 他 菜 评 级 。 烤 牛肉 和 手 撕 猪 肉 都 是 美式 烧烤 餐馆 才 有 的 菜 ， 其 他 
菜 则 在 日 式 餐 馆 才 有 。 

我 们 可 以 把 奇异 值 想 象 成 一 个 新 空间 。 与 图 14-1 中 的 矩阵 给 出 的 五 维 或 者 七 维 不 同 , 我 们 最 
终 的 矩阵 只 有 二 维 。 那 么 这 二 维 分 别 是 什么 呢 ? 它们 能 告诉 我 们 数据 的 什么 信息 ? 这 二 维 分 别 对 
应 图 中 给 出 的 两 个 组 , 右 图 中 已 经 标示 出 了 其 中 的 一 个 组 。 我 们 可 以 基于 每 个 组 的 共同 特征 来 命 
名 这 二 维 ， 比 如 我 们 得 到 的 美式 BBQ 和 日 式 食品 这 二 维 。 

如 何 才能 将 原始 数据 变换 到 上 述 新 空间 中 呢 ? 下 一 节 我 们 将 会 进一步 详细 地 介绍 SVD, 届时 
将 会 了 解 到 SVD 是 如 何 得 到 g 和 w* 两 个 矩阵 的 。w 矩 阵 会 将 用 户 映射 到 BBQ/ 日 式 食品 空间 去 。 类 
似 地 ,uo 矩阵 会 将 餐馆 的 菜 映 射 到 BBQ/ 日 式 食品 空间 去 。 真 实 的 数据 通常 不 会 像 图 14-1 中 的 矩阵 
那样 稠密 或 整齐 ， 这 里 如 此 只 是 为 了 便于 说 明 问 题 。 

推荐 引擎 中 可 能 会 有 噪声 数据 ， 比 如 某 个 人 对 某 些 菜 的 评级 就 可 能 存在 噪声 ,并 且 推 荐 系统 
也 可 以 将 数据 抽取 为 这 些 基本 主题 。 基 于 这 些 主题 ,推荐 系统 就 能 取得 比 原始 数据 更 好 的 推荐 效 
果 。 在 2006 年 末 ， 电 影 公司 Netflix 曾 经 举办 了 一 个 奖金 为 100 万 美元 的 大 赛 ， 这 笔 奖金 会 颁 给 比 
当时 最 好 系统 还 要 好 10% 的 推荐 系统 的 参赛 者 。 最 后 的 获奖 者 就 使 用 了 SVD”。 

下 一 节 将 介绍 SVD 的 一 些 背 景 材料 ， 接 着 给 出 利用 Python 的 NumPy 实 现 SVD 的 过 程 。 然 后 ， 
我 们 将 进一步 深入 讨论 推荐 引擎 。 当 对 推荐 引擎 有 相当 的 了 解 之 后 , 我 们 就 会 利用 SVD 构 建 一 个 

SVD 是 矩阵 分 解 的 一 种 类 型 ， 而 矩阵 分 解 是 将 数据 矩阵 分 解 为 多 个 独立 部 分 的 过 程 。 接 下 来 
我 们 首先 介绍 矩阵 分 解 。 


14.2 ”矩阵 分 解 


在 很 多 情况 下 ,数据 中 的 一 小 段 携带 了 数据 集中 的 大 部 分 信息 ， 其 他 信息 则 要 么 是 噪声 , 要 
么 就 是 毫 不 相关 的 信息 。 在 线性 代数 中 还 有 很 多 矩阵 分 解 技术 。 和 矩阵 分 解 可 以 将 原始 矩阵 表示 成 
新 的 易于 处 理 的 形式 , 这 种 新 形式 是 两 个 或 多 个 矩阵 的 乘积 。 我 们 可 以 将 这 种 分 解 过 程 想 象 成 代 
数 中 的 因子 分 解 。 如 何 将 12 分 解 成 两 个 数 的 乘积 y (1,12)、(2.6) 和 (3,4) 都 是 合理 的 答案 。 

不 同 的 矩阵 分 解 技 术 具有 不 同 的 性 质 , 其 中 有 些 更 适合 于 某 个 应 用 ,有 些 则 更 适合 于 其 他 应 
用 。 最 常见 的 一 种 矩阵 分 解 技 术 就 是 SVD。SVD 将 原始 的 数据 集 矩 阵 pata 分 解 成 三 个 矩阵 U、 习 
和 ww。 如 果 原 始 和 矩阵 pata 是 m 行 nb 列 ， 那 么 g、2 和 就 分 别 是 m 行 m 列 、m 行 nb 列 和 n 行 D 列 。 为 了 
清晰 起 见 ， 上 述 过 程 可 以 写成 如 下 一 行 (下 标 为 矩阵 维 数 ): 





D Yehuda Koren, “The BellKor Solution to the Netflix Grand Prize,” August 2009; http://www. netflixprize.com/assets/ 
GrandPrize2009_BPC BellKor.pdf. 
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T 
Data, = Us 2 V nxn 


mxn 


上 述 分 解 中 会 构建 出 一 个 矩阵 z， 该 矩阵 只 有 对 角 元 素 ， 其 他 元 素 均 为 0。 另 一 个 惯例 就 是 ， 


”的 对 角 元 素 是 从 大 到 小 排列 的 。 这 些 对 角 元 素 称 为 奇异 值 ( Singular Value ), 它们 对 应 了 原始 数 


据 集 矩 阵 Data 的 奇异 值 。 回 想 上 一 章 的 PCA， 我 们 得 到 的 是 矩阵 的 特征 值 ， 它 们 告诉 我 们 数据 
集中 的 重要 特征 。z 中 的 奇异 值 也 是 如 此 。 奇 异 值 和 特征 值 是 有 关系 的 。 这 里 的 奇异 值 就 是 矩阵 
Data * pata" 特 征 值 的 平方 根 。 

前 面 提 到 过 ， 和 矩阵 5 只 有 从 大 到 小 排列 的 对 角 元 素 。 在 科学 和 工程 中 ， 一 直 存 在 这 样 一 个 普 
遍 事 实 : 在 某 个 奇异 值 的 数目 (个 ) 之 后 ， 其 他 的 奇异 值 都 置 为 0。 这 就 意味 着 数据 集中 仅 有 r 
个 重要 特征 ， 而 其 余 特 征 则 都 是 噪声 或 元 余 特 征 。 在 下 一 节 中 ， 我 们 将 看 到 一 个 可 靠 的 案例 。 

我 们 不 必 担 心 该 如 何 进行 矩阵 分 解 。 在 下 一 节 中 就 会 提 到 , 在 NumPy 线 性 代数 库 中 有 一 个 实 
现 SVD 的 方法 。 如 果 读 者 对 SVD 的 编程 实现 感 兴趣 的 话 ， 请 阅读 Numerical Linear Algebra?。 


14.3 ”利用 Python 实现 SVD 


如 果 SVD 确 实 那么 好 , 那么 该 如 何 实现 它 呢 ? SVD 实 现 了 相关 的 线性 代数 , 但 这 并 不 在 本 书 
的 讨论 范围 之 内 。 其 实 ， 有 很 多 软件 包 可 以 实现 SVD。NumPy 有 一 个 称 为 linalg 的 线性 代数 工具 
箱 。 接 下 来 我们 了 解 一 下 如 何 利 用 该 工具 箱 实现 如 下 矩阵 的 SVD 处 理 : 


1 1 
1 7 
要 在 Python 上 实现 该 矩阵 的 SVD 处 理 ， 请 键 人 如 下 命令 ; 


>>> from numpy import * 

>>> U,Sigma,VvT=linalg.svd([{1, 1], [7, 7])) 
接 下 来 就 可 以 在 如 下 多 个 矩阵 上 进行 尝试 : 

>>> U 

array ([[-0.14142136, -0.98994949]， 

[-0.98994949, 0.14142136]1]) 

>>> Sigma 

array([ 10.， 0.]) 

>>> VT 

array([[-0.70710678, -0.70710678],， 

[-0.70710678, 0.70710678]1])} 


我 们 注意 到 ， 和 矩阵 sigma 以 行 向 量 array([{ 10.，0.]) 返 回 , 而 非 如 下 矩阵 ; 
array([[ 10., 0.], 
[0 OT])s 


由 于 矩阵 除了 对 角 元 素 其 他 均 为 0， 因 此 这 种 仅 返 回 对 角 元 素 的 方式 能 够 节省 空间 ， 这 就 是 
由 NumPy 的 内 部 机 制 产 生 的 。 我 们 所 要 记 住 的 是 , 一 旦 看 到 sigma 就 要 知道 它 是 一 个 矩阵 。 好 了 ， 
接 下 来 我 们 将 在 一 个 更 大 的 数据 集 上 进行 更 多 的 分 解 。 











@ L. Trefethen and D. Bau III, Numerical Linear Algebra (SIAM: Society for Industrial and Applied Mathematics, 1997). 
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建立 一 个 新 文件 svdRec.py 并 加 入 如 下 代码 : 


def loadExData(): 
return{l[1, 1, 


Ubb 口 口 口 口 
© 
Pe 


一 
a 
OppapcbDd 
OO ou 


{0, 0, 1, 1]] 


接 下 来 我 们 对 该 矩阵 进行 SVD 分 解 。 在 保存 好 文件 svdRec.py 之 后 ， 我 们 在 Python 提示 符 下 


>>> import svdRec 

>>> Data=svdRec.1loadExData (} 

>>> U,Sigma,VT=linalg.svd (Data) 

>>> Sigma 

array([ 9.72140007e+00, 5.29397912e+00， 6.84226362e-01, 
7.16251492e-16, 4.85169600e-32]) 


前 3 个 数值 比 其 他 的 值 大 了 很 多 ( 如 果 你 的 最 后 两 个 值 的 结果 与 这 里 的 结果 稍 有 不 同 ， 也 不 
必 担 心 。 它 们 太 小 了 ， 所 以 在 不 同 机 器 上 产生 的 结果 就 可 能 会 稍 有 不 同 ， 但 是 数量 级 应 该 和 这 里 
的 结果 差不多 )。 于 是 ， 我 们 就 可 以 将 最 后 两 个 值 去 掉 了 。 

接 下 来 ， 我 们 的 原始 数据 集 就 可 以 用 如 下 结果 来 近似 : 


T 
D Aladin Ua 二 ya V 3xn 


图 14-2 就 是 上 述 近 似 计算 的 一 个 示意 图 。 





Data 


图 14-2 SVD 的 示意 图 。 和 矩阵 pata 被 分 解 。 浅 灰色 区 域 是 原始 数据 ， 深 灰色 区 域 是 矩阵 近 
似 计算 仅 需 要 的 数据 
我 们 试图 重 构 原 始 矩 阵 。 首 先 构建 一 个 3x3 的 矩阵 sig3 ， 
>>> sig3=mat([[sigma[0]，0，0]1,[0，gsigma[1]，0]，[0，0，Sigma[2]]]) 
接 下 来 我 们 重 构 一 个 原始 矩阵 的 近似 矩阵 。 由 于 sig2 仅 为 2x2 的 矩阵 ， 因 而 我 们 只 需 使 用 和 矩 
阵 g 的 前 两 列 和 w 的 前 两 行 。 为 了 在 Python 中 实现 这 一 点 ， 输 入 如 下 命令 : 
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>>> U[:, :3] *Sig3*VT{:3,: 


] 
array([[ 1., 1., 1., 0 0.]， 
[05 
[0 
[5., 5., 5., 0 0.]， 
| ee 7 2.]， 
[Ow 00 
[ 0. 0.，-0. ly “Le]]) 


我 们 是 如 何 知道 仅 需 保留 前 3 个 奇异 值 的 呢 ? 确定 要 保留 的 奇异 值 的 数目 有 很 多 启发 式 的 策 
咯 ， 其 中 一 个 典型 的 做 法 就 是 保留 矩阵 中 90% 的 能 量 信息 。 为 了 计算 总 能 量 信 息 , 我 们 将 所 有 的 
奇异 值 求 其 平方 和 。 于 是 可 以 将 奇异 值 的 平方 和 累加 到 总 值 的 90% 为 止 。 另 一 个 启发 式 策略 就 是 ， 
当 和 矩阵 上 有 上 万 的 奇异 值 时 ， 那 么 就 保留 前 面 的 2000 或 3000 个 。 尽 管 后 一 种 方法 不 太 优 雅 ， 但 是 
在 实际 中 更 容易 实施 。 之 所 以 说 它 不 够 优雅 ， 就 是 因为 在 任何 数据 集 上 都 不 能 保证 前 3000 个 奇异 
值 就 能 够 包含 90% 的 能 量 信息 。 但 在 通常 情况 下 ,使 用 者 往往 都 对 数据 有 足够 的 了 解 ， 从 而 就 能 
够 做 出 类 似 的 假设 了 。 

现在 我 们 已 经 通过 三 个 矩阵 对 原始 矩阵 进行 了 近似 。 我 们 可 以 用 一 个 小 很 多 的 矩阵 来 表示 一 
个 大 和 矩阵。 有 很 多 应 用 可 以 通过 SVD 来 提升 性 能 。 下 面 我 们 将 讨论 一 个 比较 流行 的 SVD 应 用 的 例 
子 一 一 推荐 引擎 。 


14.4 ”基于 协同 过 滤 的 推荐 引擎 


近 十 年 来 ， 推 荐 引擎 对 因特网 用 户 而 言 已 经 不 是 什么 新 鲜 事物 了 。Amazon 会 根据 顾客 的 购 
买 历史 向 他 们 推荐 物品 ，Netflix 会 向 其 用 户 推荐 电影 ， 新 闻 网 站 会 对 用 户 推荐 新 闻 报道 ， 这 样 的 _ 
例子 还 有 很 多 很 多 。 当 然 ， 有 很 多 方法 可 以 实现 推荐 功能 ， 这 里 我 们 只 使 用 一 种 称 为 协同 过 滤 
( collaborative filtering ) 的 方法 。 协 同 过 滤 是 通过 将 用 户 和 其 他 用 户 的 数据 进行 对 比 来 实现 推 
荐 的 。 

这 里 的 数据 是 从 概念 上 组 织 成 了 类 做 图 14-2 所 给 出 的 矩阵 形式 。 当 数据 采用 这 种 方式 进行 组 
织 时 , 我 们 就 可 以 比较 用 户 或 物品 之 间 的 相似 度 了 。 这 两 种 做 法 都 会 使 用 我 们 很 快 就 介绍 到 的 相 
似 度 的 概念 。 当 知道 了 两 个 用 户 或 两 个 物品 之 间 的 相似 度 , 我 们 就 可 以 利用 已 有 的 数据 来 预测 未 
知 的 用 户 喜 好 。 例 如, 我们 试图 对 某 个 用 户 喜 欢 的 电影 进行 预测 ,推荐 引擎 会 发 现 有 一 部 电影 该 
用 户 还 没 看 过 。 然 后 ， 它 就 会 计算 该 电影 和 用 户 看 过 的 电影 之 间 的 相似 度 ， 如 果 其 相似 度 很 高 ， 
推荐 算法 就 会 认为 用 户 吝 欢 这 部 电影 。 

在 上 述 场景 下 ， 唯 一 所 需要 的 数学 方法 就 是 相似 度 的 计算 ， 这 并 不 是 很 难 。 接 下 来 ,我 们 首 
先 讨 论 物品 之 间 的 相似 度 计 算 ,然后 讨 i 伦 在 基于 物品 和 基于 用 户 的 相似 度 计算 之 间 的 折 中 。 最 后 ， 
我 们 介绍 推荐 引擎 成 功 的 度量 方法 。 


14.4.1 ”相似 度 计 算 


我 们 希望 拥有 一 些 物品 之 间 相 似 度 的 定量 方法 。 那 么 如 何 找 出 这 些 方法 呢 ? 倘若 我 们 面 对 的 
是 食品 销售 网 站 ， 该 如 何 处 理 ? 或 许可 以 根据 食品 的 配料 、 热 量 、 某 个 豪 调 类 型 的 定义 或 者 其 他 
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类 似 的 信息 进行 相似 度 的 计算 。 现 在 , 假设 该 网 站 想 把 业务 拓展 到 餐具 行业 ,那么 会 用 热量 来 描 
述 一 个 叉子 吗 ? 问题 的 关键 就 在 于 用 于 描述 食品 的 属性 和 描述 餐具 的 属性 有 所 不 同 。 倘 若 我 们 使 
用 另外 一 种 比较 物品 的 方法 会 怎样 呢 ? 我 们 不 利用 专家 所 给 出 的 重要 属性 来 描述 物品 从 而 计算 
它们 之 间 的 相似 度 , 而 是 利用 用 户 对 它们 的 意见 来 计算 相似 度 。 这 就 是 协同 过 滤 中 所 使 用 的 方法 。 
它 并 不 关心 物品 的 描述 属性 ， 而 是 严格 地 按照 许多 用 户 的 观点 来 计算 相似 度 。 图 14-3 给 出 了 由 一 
些 用 户 及 其 对 前 面 给 出 的 部 分 菜肴 的 评级 信息 所 组 成 的 矩阵 。 


日 
式 手 
鳗 检 者 烤 白 
鱼 鸡 司 个 猪 
板 排 饭 内 肉 
Jm 12 0 0 4 4 
John 5 5 5 3 3 
saly |2 4 2 1 2 


图 14-3 ”用 于 展示 相似 度 计算 的 简单 矩阵 
我 们 计算 一 下 手 据 猪 肉 和 烤 牛 肉 之 间 的 相似 度 。 一 开始 我 们 使 用 欧 氏 距离 来 计算 。 手 撕 猪 肉 


和 烤 牛 肉 的 欧 氏 距离 为 : 
YA-4 +G3-3) +(2-1) =1 


而 手 撕 猪肉 和 鳗鱼 饭 的 欧 氏 距离 为 : 


V4-2) +(3—5) +(2—2) =2.83 

在 该 数据 中 ， 由 于 手 撕 猪 肉 和 烤 牛 肉 的 距离 小 于 手 撕 猪 肉 和 鳗鱼 饭 的 距离 ,因此 手 撕 猪 肉 与 
烤 牛 肉 比 与 鳗鱼 饭 更 为 相似 。 我 们 希望 ， 相 似 度 值 在 0 到 1 之 间 变 化 ， 并 且 物 品 对 越 相似 ， 它 们 的 
”相似 度 值 也 就 越 大 。 我 们 可 以 用 “相似 度 =1(1+ 距 离 )” 这 样 的 算式 来 计算 相似 度 。 当 距离 为 O 时 ， 
相似 度 为 1.0。 如 果 距 离 真 的 非常 大 时 ， 相 似 度 也 就 趋 近 于 0。 

第 二 种 计算 距离 的 方法 是 皮尔 进 相关 系数 (Pearson correlation )。 我 们 在 第 8 章 度量 回归 方程 
的 精度 时 曾经 用 到 过 这 个 量 , 它 度量 的 是 两 个 向 量 之 间 的 相似 度 。 该 方法 相对 于 欧 氏 距离 的 一 个 
优势 在 于 ， 它 对 用 户 评级 的 量 级 并 不 敏感 。 比如 某 个 狂躁 者 对 所 有 物品 的 评分 都 是 $ 分 ， 而 另 一 
个 忧郁 者 对 所 有 物品 的 评分 都 是 1 分 ， 皮尔 逊 相关 系数 会 认为 这 两 个 向 量 是 相等 的 。 在 NumPy 中 ， 
皮尔 逊 相关 系数 的 计算 是 由 函数 corrcoef () 进行 的 ， 后 面 我 们 很 快 就 会 用 到 它 了 。 皮 尔 逊 相关 
系数 的 取 值 范围 从 -1 到 +1， 我 们 通过 0.5 + 0.5*corrcoef () 这 个 函数 计算 ， 并 且 把 其 取 值 范 
围 归 一 化 到 0 到 1 之 间 。 

另 一 个 常用 的 距离 计算 方法 就 是 余弦 相似 度 ( cosine similarity )， 其 计算 的 是 两 个 向 量 夹 角 的 
余弦 值 。 如 果 夹 角 为 90 度 ， 则 相似 度 为 0; 如 果 两 个 向 量 的 方向 相同 ， 则 相似 度 为 1.0。 同 皮尔 逊 
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相关 系数 一 样 , 余弦 相似 度 的 取 值 范围 也 在 -1 到 +1 之 间 , 因此 我 们 也 将 它 归 一 化 到 0 到 1 之 间 。 计 
算 余弦 相似 度 值 ， 我 们 采用 的 两 个 向 量 4 和 B 夹 角 的 余弦 相似 度 的 定义 如 下 ， 


A.B | 
C0S0 = 一 一 
lallal 


其 中 ,||4、|IBl 表 示 向 量 4、B 的 2 范 数 ， 你 可 以 定义 向 量 的 任 一 范 数 ， 但 是 如 果 不 指定 范 数 
阶 数 ， 则 都 假设 为 2 范 数 。 向 量 [4,2,2] 的 2 范 数 为 ; 


V4 +32 十 22 
同样 ，NumPy 的 线性 代数 工具 箱 中 提供 了 范 数 的 计算 方法 1inalg,norm()。 


接 下 来 我 们 将 上 述 各 种 相似 度 的 计算 方法 写成 Python 中 的 函数 。 打 开 svdRec.py 文 件 并 加 入 下 
列 代码 。 


程序 清单 14-1 ”相似 度 计算 
from numpy import * 
from numpy import linalg as la 


Gef ecludSim(inA,inpB): 
return 1.0/(1.0 + la.norm(inA - inB)) 


def pearsSim(inA,inB): 
if len(inA) < 3 : return 1.0 
return 0.5+0.5*corrcoef (inA, inB, rowvar = 0) [0] {1] 


def cosSim(inA,inBp): 
num = float (inA.T*inB) 
denom = la.norm(inA)*la,.norm (inB) 
return 0.5+0.5* (num/denom) 


程序 中 的 3 个 函数 就 是 上 面 提 到 的 几 种 相似 度 的 计算 方法 。 为 了 便于 理解 ，NumPy 的 线性 代 
数 工 具 箱 linalg 被 作为 1a 导 人， 函数 中 假定 ina 和 :inB 都 是 列 向 量 。perassim() 函数 会 检查 是 否 
存在 3 个 或 更 多 的 点 。 如 果 不 存在 ， 该 函数 返回 1.0， 这 是 因为 此 时 两 个 向 量 完全 相关 。 

下 面 我 们 对 上 述 函 数 进行 尝试 。 在 保存 好 文件 svdRec.by 之 后 , 在 Python 提示 符 下 输入 如 下 命 


>>> reload(svdRec) 

<module 'svdRec' from 'svdRec.pyc'> 

>>> myMat=mat (svdRec .loadExData ()) 

>>> svdRec.eciudsim{(myMat [:,0],myMat[:,4]) 
0.12973190755680383 

>>> svdRec.ecludSsim{(myMat [:,0] ,myMat [:,0]) 
1.0 


欧 氏 距离 看 上 去 还 行 ， 那 么 接 下 来 试 试 余弦 相似 度 ; 
>>> svdRec.cosSim(myMat[:,0] ,myMat [:,4]) 

0.5 

>>> svdRec.cosSim(myMat {:,0],myMat[:,0]) 
1.0000000000000002 
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余弦 相似 度 似 乎 也 行 ， 就 再 试 试 皮尔 逊 相关 系数 : 
>>> svdRec.pearsSim(myMat [:,0] ,myMatf:,4]) 
0.20596538173840329>>> svdRec. pearssim(myMat [: ,0] ,myMat [: ,01) 


上 面 的 相似 度 计算 都 是 假设 数据 采用 了 列 向 量 方式 进行 表示 。 如 果 利用 上 述 函数 来 计算 两 个 行 
向 量 的 相似 度 就 会 遇 到 问题 (我们 很 容易 对 上 述 函 数 进行 修改 以 计算 行 向 量 之 间 的 相似 度 )。 这 里 采 
用 列 向 量 的 表示 方法 ， 瞳 示 着 我 们 将 利用 基于 物品 的 相似 度 计 算 方法 。 后 面 我 们 会 阐述 其 中 的 原因 。 


14.4.2 ”基于 物品 的 相似 度 还 是 基于 用 户 的 相似 度 ? 


我 们 计算 了 两 个 餐馆 菜肴 之 间 的 距离 ， 这 称 为 基于 物品 (item-based ) 的 相似 度 。 另 一 种 计 
算 用 户 距离 的 方法 则 称 为 基于 用 户 (user-based ) 的 相似 度 。 回 到 图 14-3， 行 与 行 之 间 比 较 的 是 基 
于 用 户 的 相似 度 , 列 与 列 之 间 比 较 的 则 是 基于 物品 的 相似 度 。 到 底 使 用 哪 一 种 相似 度 呢 ?这 取决 
于 用 户 或 物品 的 数目 。 基 于 物品 相似 度 计 算 的 时 间 会 随 物 品 数量 的 增加 而 增加 , 基于 用 户 的 相似 
度 计算 的 时 间 则 会 随 用 户 数量 的 增加 而 增加 。 如 果 我 们 有 一 个 商店 ， 那 么 最 多 会 有 几 千 件 商品 。 
在 撰写 本 书 之 际 ， 最 大 的 商店 大 概 有 100 000 件 商品 。 而 在 Netflix 大 赛 中 ， 则 会 有 480 000 个 用 户 
和 17 700 部 电影 。 如 果 用 户 的 数目 很 多 ， 那 么 我 们 可 能 倾向 于 使 用 基于 物品 相似 度 的 计算 方法 。 

对 于 大 部 分 产品 导向 的 推荐 引擎 而 言 , 用 户 的 数量 往往 大 于 物品 的 数量 , 即 购买 商品 的 用 户 
数 会 多 于 出 售 的 商品 种 类 。 


14.4.3 ”推荐 引擎 的 评价 


如 何 对 推荐 引擎 进行 评价 呢 ? 此 时 , 我们 既 没 有 预测 的 目标 值 , 也 没有 用 户 来 调查 他 们 对 预 
测 的 满意 程度 。 这 里 我 们 就 可 以 采用 前 面 多 次 使 用 的 交叉 测试 的 方法 。 具体 的 做 法 就 是 , 我 们 将 
某 些 已 知 的 评分 值 去 掉 ， 然 后 对 它们 进行 预测 ， 最 后 计算 预测 值 和 真实 值 之 间 的 差异 。 

通常 用 于 推荐 引擎 评价 的 指标 是 称 为 最 小 均 方 根 误差 (Root Mean Squared Error，RMSE ) 的 
指标 ， 它 首先 计算 均 方 误差 的 平均 值 然后 取 其 平方 根 。 如 果 评 级 在 1 星 到 5 星 这 个 范围 内 ， 而 我 们 
得 到 的 RMSE 为 1.0， 那 么 就 意味 着 我 们 的 预测 值 和 用 户 给 出 的 真实 评价 相差 了 一 个 星 级 。 


14.5 示例 : 餐馆 菜肴 推荐 引擎 
现在 我 们 就 开始 构建 一 个 推荐 引擎 ,该 推荐 引擎 关注 的 是 餐馆 食物 的 推荐 。 假设 一 个 人 在 家 


决定 外 出 吃饭 , 但 是 他 并 不 知道 该 到 哪儿 去 吃饭 ， 该 点 什么 菜 。 我 们 这 个 推荐 系统 可 以 帮 他 做 到 ， 


这 两 点 。 

首先 我 们 构建 一 个 基本 的 推荐 引擎 ， 它 能 够 寻找 用 户 没有 尝 过 的 菜肴。 然后 , 通过 SVD 来 减 
少 特征 空间 并 提高 推荐 的 效果 。 这 之 后 ,将 程序 打包 并 通过 用 户 可 读 的 人 机 界面 溃 代 给 人 们 使 用 。 
最 后 ， 我 们 介绍 在 构建 推荐 系统 时 面临 的 一 些 问 题 。 
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14.5.1 ”推荐 未 尝 过 的 菜 着 


推荐 系统 的 工作 过 程 是 ， 给 定 一 个 用 户 ， 系 统 会 为 此 用 户 返 回 N 个 最 好 的 推荐 菜 。 为 了 实现 
这 一 点 ， 则 需要 我 们 做 到 : 

(1) 寻找 用 户 没 有 评级 的 菜肴 ， 即 在 用 户 - 物品 矩阵 中 的 0 值 ; 

(2) 在 用 户 没有 评级 的 所 有 物品 中 ， 对 每 个 物品 预计 一 个 可 能 的 评级 分 数 。 这 就 是 说 ， 我 们 
认为 用 户 可 能 会 对 物品 的 打分 ( 这 就 是 相似 度 计算 的 初衷 ) 

(3) 对 这 些 物品 的 评分 从 高 到 低 进 行 排序 ， 返 回 前 N 个 物品 。 

好 了 ， 接 下 来 我 们 尝试 这 样 做 。 打 开 svdRec.py 文 件 并 加 入 下 列 程序 清单 中 的 代码 。 


程序 清单 14-2 基于 物品 相似 度 的 推荐 引擎 


def standEst (dataMat, user, simMeas, item): 
n = shape (dataMat) [1} 
simTotal = 0.0; ratSimTotal = 0.0 
for j in range(n): 
userRating = dataMat {user,j] 
if userRating == 0: continue 寻找 两 个 用 户 都 
overLap = nonzero(logical and (GataMat [:,item]l .A>0, \ 有 评级 的 物品 
dataMat {:,j] .A>0)) [0] 
if len (overLap) == 0: similarity = 0 
else: Similarity = simMeas (dataMat [overLap, item], \ 
dataMat [overLap, j]) 
#print 'the %d and %d similarity is: 多 人" $ (item, j, similarity) 
simTotal += similarity 
ratSimTotal += similarity * userRating 
if simTotal == 0: return 0 
else: return ratSimTotal/simTotal 


def recommend(dataMat, user, N=3, simMeas=cosSim， estMethod=standEst): 


unratedItems = nonzero (dataMat {user, :] .A==0) [1] 
if len(unratedItems) == 0: return 'you rated everything' 寻找 未 评级 的 物品 
itemScores = [] 


for item in unratedItems: 
estimatedScore = estMethod (dataMat, user, simMeas, item) 
itemScores.append( (item, estimatedSscore)) 
return sorted(itemScores, \ 
key=lambda jj: jj[1], reverse=True){:N] 


有 忆 寻找 前 N 个 未 评级 物品 
上 述 程序 包含 了 两 个 函数 。 第 一 个 函数 是 standEst () ， 用 来 计算 在 给 定 相似 度 计算 方法 的 
条 件 下 ， 用 户 对 物品 的 估计 评分 值 。 第 二 个 函数 是 recommend ()， 也 就 是 推荐 引擎 ， 它 会 调用 
standEst () 函数 。 我 们 先 讨论 standEst () 函数 ， 然 后 讨论 recommenad ( ) 函数 。 
函数 standgst () 的 参数 包括 数据 矩阵 、 用 户 编号 、 物 品 编号 和 相似 度 计算 方法 。 假 设 这 里 
的 数据 矩阵 为 图 14-1 和 图 14-2 的 形式 ， 即 行 对 应 用 户 、 列 对 应 物品 。 那 么 ， 我 们 首先 会 得 到 数据 
集中 的 物品 数目 ， 然 后 对 两 个 后 面 用 于 计算 估计 评分 值 的 变量 进行 初始 化 。 接 着 ， 我 们 遍历 行 中 
的 每 个 物品 。 如 果 某 个 物品 评分 值 为 0， 就 意味 着 用 户 没 有 对 该 物品 评分 ， 跳 过 了 这 个 物品 。 该 
循环 大 体 上 是 对 用 户 评 过 分 的 每 个 物品 进行 遍历 并 将 它 和 其 他 物品 进行 比较 。 变量 overLap 
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给 出 的 是 两 个 物品 当中 已 经 被 评分 的 那个 元 素 @。 如 果 两 者 没有 任何 重合 元 素 ， 则 相似 度 为 0 且 
中 止 本 次 循环 。 但 是 如 果 存 在 重合 的 物品 ， 则 基于 这 些 重合 物品 计算 相似 度 。 随 后 ， 相 似 度 会 不 
断 累 加 ， 每 次 计算 时 还 考虑 相似 度 和 当前 用 户 评分 的 乘积 。 最 后 , 通过 除 以 所 有 的 评分 总 和 ， 对 
上 述 相 似 度 评分 的 乘积 进行 妇 一 化 。 这 就 可 以 使 得 最 后 的 评分 值 在 0 到 5 之 间 , 而 这 些 评分 值 则 用 
于 对 预测 值 进 行 排序 。 

函数 recommend() 产生 了 最 高 的 N 个 推荐 结果 。 如 果 不 指定 N 的 大 小 ， 则 默认 值 为 ?。 该 函 
数 另外 的 参数 还 包括 相似 度 计算 方法 和 估计 方法 。 我 们 可 以 使 用 程序 清单 14-1 中 的 任意 一 种 相似 
度 计 算 方 法 。 此 时 我 们 能 采用 的 估计 方法 只 有 一 种 选择 ， 但 是 在 下 一 小 节 中 会 增加 另外 一 种 选择 。 
该 函数 的 第 一 件 事 就 是 对 给 定 的 用 户 建立 一 个 未 评分 的 物 品 列表 @@。 如 果 不 存在 未 评分 物品 , 那 
么 就 退出 函数 ; 和 否则， 在 所 有 的 未 评分 物品 上 进行 循环 。 对 每 个 未 评分 物品 ， 则 通过 调用 
standEst() 来 产生 该 物品 的 预测 得 分 。 该 物品 的 编号 和 估计 得 分 值 会 放 在 一 个 元 素 列表 
1temSscores 中 。 最 后 按照 估计 得 分 ， 对 该 列表 进行 排序 并 返回 合 。 该 列 表 是 从 大 到 小 道 序 排列 
的 ， 因 此 其 第 一 个 值 就 是 最 大 值 。 

接 下 来 看 看 它 的 实际 运行 效果 。 在 保存 svdRecpy 文 件 之 后 ， 在 Python 提示 符 下 输入 
命令 ; 


>>> reload(SvGRec ) 
<module 'svadRec' from 'svdRec.py'> 


下 面 ， 我 们 调 人 了 一 个 矩阵 实例 ， 可 以 对 本 章 前 面 给 出 的 矩阵 稍 加 修改 后 加 以 使 用 。 首 先 ， 
调 人 原始 矩阵 ; 

>>> myMat=mat (svdRec .lo0adExData ()) 

该 矩阵 对 于 展示 SVD 的 作用 非常 好 , 但 是 它 本 身 不 是 十 分 有 趣 ， 因此 我 们 要 对 其 中 的 一 些 值 
进行 更 改 : 

>>> myMat [0,1]=myMat [0,0] =myMat [1, 0] =myMat [2,0] =4 

>>> myMat [3,3]=2 


现在 得 到 的 矩阵 如 下 : 

>>> myMat 

matrix([[4, 4, 0, 2, 2] 
{4, 0, 0, 3, 3] 
[4, 0, 0, 1, 1], 
[1i, 3, 1, 2, 0] 
[2 27 .2;-0; 0]， 
[1, 1, i, 09, 0], 
[5, 5, 5, 0, 01]) 


好 了 ， 现 在 我 们 已 经 可 以 做 些 推荐 了 。 我 们 先 尝 试 一 下 默认 的 推荐 ， 
>>> svdRec.recommend (myMat, 2) 
[(2, 2.5000000000000004)， (1， 2.0498713655614456)] 


这 表明 了 用 户 2( 由 于 我 们 从 0 开始 计数 , 因此 这 对 应 了 和 矩阵 的 第 3 行 ) 对 物 品 2 的 预测 评分 值 为 2.5， 
对 物品 1 的 预测 评分 值 为 2.05。 下 面 我 们 就 利用 其 他 的 相似 度 计算 方法 来 进行 推荐 : 
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>>> SVGRec .recommend (myMat, 2, simMeas=svdRec .ecludSim) 
[(2, 3.0), (1, 2.8266504712098603)] 

>>> SvdRec.recommend (myMat, .2, simMeas=svdRec .pearsSim) 
[(2, 2.5)}, (1, 2.0)] 


我 们 可 以 对 多 个 用 户 进行 尝试 ， 或 者 对 数据 集 做 些 修改 来 了 解 其 给 预测 结果 带 来 的 变化 。 
这 个 例子 给 出 了 如 何 利 用 基于 物品 相似 度 和 多 个 相似 度 计算 方法 来 进行 推荐 的 过 程 ， 下 面 我 
们 介绍 如 何 将 SVD 应 用 于 推荐 。 


14.5.2 ”利用 SVD 提高 推荐 的 效果 


实际 的 数据 集会 比 我 们 用 于 展示 recommend ( ) 函数 功能 的 mywat 矩 阵 稀疏 得 多 。 图 14-4 就 给 
出 了 一 个 更 真实 的 矩阵 的 例子 。 


印 
日 三 重 和 
式 文 宾 印 麻 富 奶 俄 
鳗 炸 寿 烤 和 鱼 三 度 疲 保 酷 式 
鱼 鸡 司 牛 汉 明 烤 豆 鸡 叫 汉 
板 排 饭 肉 堡 治 鸡 腐 本 咕 集 
Brett | 2 0 0 4 4 0 0 0 0 0 0 
Rob |o 0 0 0 00 00 0 0 5 
Drew | 0 0 0 0 0 0 0 1 0 4 0 
scot |3 3 4 0 3 0 0 2 2 0 0) 
Mary | 5 5 5 0 0 0 0 0 0 0 0 
Brent |10 0 0 0 0 0 5 0 0 5 0 
Kyle | 4 0 4 0 0 0 0 0 0 0 5 
saa lo0 0 0 0 04 0 0 0 0 4 
shaney |0 0 0 0 0 0 5 0 0 5 0 
Brendan 0 0 0 3 0 0 0 0 4 5 0 
Leanna | 1 1 2- 31 1 2 1 0 4 5 .0 


图 14-4 一 个 更 大 的 用 户 -菜肴 矩阵 ， 其 中 有 很 多 物品 都 没有 评分 ， 这 比 一 个 全 
填充 的 矩阵 更 接近 真实 情况 


我 们 可 以 将 该 矩阵 输入 到 程序 中 去 ， 或 者 从 下 载 代 码 中 复制 函数 1oadExpata2 ()。 下 面 我 
们 计算 该 矩阵 的 SVD 来 了 解 其 到 底 需 要 多 少 维特 征 。 


>>>from numpy import linalg as la 

>>> U, Sigma, VT=1a.svd (mat (svdRec.1loadExData2 ())) 

>>> Sigma 

array ([ 1.38487021le+01, 1.15944583e+01, 1.10219767e+01， 
5.31737732e+00， 4.55477815e+00， 2.69935136e+00, 
1.53799905e+00， 6.46087828e-01, 4.45444850e-01， 
9.86019201e-02, 9.96558169e-17]1) 


接 下 来 我 们 看 看 到 底 有 多 少 个 奇异 值 能 达到 总 能 量 的 90%。 首 先 ， 对 sigma 中 的 值 求 平方 


>>> Sig2=Sigma**2 


再 计算 一 下 总 能 量 : 
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>>> Sum(Sig2) 
541.99999999999932 


再 计算 总 能 量 的 90%: 


>>> Sum(Sig2)*0.9 
487.79999999999939 


然后 ， 计 算 前 两 个 元 素 所 包含 的 能 量 ， 


>>> sum(Sig2[:21) 
378.8295595113579 


”该 值 低 于 总 能 量 的 90%， 于 是 计算 前 三 个 元 素 所 包含 的 能 量 : 


>>> Sum(Sig2 [:3]) 
500.50028912757909 


该 值 高 于 总 能 量 的 90%， 这 就 可 以 了 。 于 是 ， 我 们 可 以 将 一 个 11 维 的 矩阵 转换 成 一 个 3 维 的 矩阵 。 
下 面 对 转 换 后 的 三 维 空间 构造 出 一 个 相似 度 计算 函数 。 我 们 利用 SVD 将 所 有 的 菜肴 映射 到 一 个 低 
维 空间 中 去 。 在 低 维 空间 下 ， 可 以 利用 前 面相 同 的 相似 度 计 算 方 法 来 进行 推荐 。 我 们 会 构造 出 一 
个 类 似 于 程序 清单 14-2 中 的 standgst () 函数 。 打 开 svdRec.py 文 件 并 加 入 如 下 程序 清单 中 的 代 
码 。 


程序 清单 14-3 ”基于 SVD 的 评分 估计 


def svdEst (dataMat, user, simMeas, item): 
n = Shape (dataMat) {1] 
simTotal = 0.0; ratSimTotal = 0.0 
U,Sigma,VvT = la.svd(dataMat) 
Sig4 = mat (eye(4)*Sigma[:4]) 
xformedIitems = dataMat.T * U{:,:4] * Sig4. 工 
for j in range (n): 
userRating = dataMat [user,j] 


We 建立 对 角 矩 阵 


0 构建 转换 后 的 物品 


if userRating == 0 or j==item: continue 
similarity = simMeas (xformedIitems [item, :] .TAN 
xformedItems[j,:].T) 


Print 'the %d and %d similarity is: %f' % (item, j, similarity) 
simTotal += similarity 
ratSimTotal += similarity * userRating 
if simTotal == 0; return 0 
else: return ratSimTotal/simTotal 


上 述 程序 中 包含 有 一 个 函数 svagst () 。 在 recommend() 中 ， 这 个 函数 用 于 替换 对 stand- 
Est () 的 调用 ， 该 函数 对 给 定 用 户 给 定 物品 构建 了 一 个 评分 估计 值 。 如 果 将 该 函数 与 程序 清单 
14-2 中 的 standEst () 函数 进行 比较 ， 就 会 发 现 很 多 行 代码 都 很 相似 。 该 函数 的 不 同 之 处 就 在 于 
它 在 第 3 行 对 数据 集 进 行 了 SVD 分 解 。 在 SVD 分 解 之 后 , 我们 只 利用 包含 了 90% 能 量 值 的 奇异 值 ， 
这 些 奇异 值 会 以 NumPy 数 组 的 形式 得 以 保存 。 因 此 如 果 要 进行 矩阵 运算 , 那么 就 必须 要 用 这 些 奇 
异 值 构建 出 一 个 对 角 和 矩阵 人 @。 然 后 ， 利 用 uo 矩 阵 将 物品 转换 到 低 维 空间 中 他 。 

对 于 给 定 的 用 户 ，foz 循 环 在 用 户 对 应 行 的 所 有 元 素 上 进行 遍历 。 这 和 standEst () 函数 中 
的 for 循 环 的 目的 一 样 ， 只 不 过 这 里 的 相似 度 计 算是 在 低 维 空间 下 进行 的 。 相 似 度 的 计算 方法 也 
会 作为 一 个 参数 传递 给 该 函数 。 然 后 ， 我 们 对 相似 度 求 和 ， 同 时 对 相似 度 及 对 应 评分 值 的 乘积 求 
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和 。 这 些 值 返回 之 后 则 用 于 估计 评分 的 计算 。 for 循 环 中 加 入 了 一 条 print 语 句 ， 以 便 能 够 了 解 
相似 度 计算 的 进展 情况 。 如 果 觉 得 这 些 输出 很 累 效 ， 也 可 以 将 该 语句 注释 掉 。 

接 下 来 看 看 程序 的 执 和 5 效果 ， 将 程序 清单 14-3 中 的 代码 输入 到 文件 svdRec.py 中 并 保存 之 后 ， 
在 Python 提 示 符 下 运行 如 下 命 命令 ; 


>>> reload (svdRec) 

<module ‘svdRec' from 'svdRec.pyc'> 

>>> svdRec.recommend (myMat, 1, estMethod=svdRec.svdEst) 
The 0 and 3 similarity is 0.362287. 


The 9 and 10 similarity is 0.497753. 
[(6, 3.387858021353602), (8, 3.3611246496054976), (7, 3.3587350221130028)] 


下 面 再 尝试 另外 一 种 相似 度 计 算 方 法 : 
>>> svdRec.recommend (myMat, 1, estMethod=svdRec.svdEst, 


simMeas=svdRec .pearsSim) 
The 0 and 3 similarity is 0.116304. 


The 9 and 10 similarity is 0.566796. 
{(6, 3.3772856083690845), (9, 3.3701740601550196), (4, 3.3675118739831169)] 


我 们 还 可 以 再 用 其 他 多 种 相似 度 计算 方法 尝试 一 下 。 感 兴趣 的 读者 可 以 将 这 里 的 结果 和 前 面 
的 方法 〈 不 做 SVD 分 解 ) 进行 比较 ， 看 看 到 底 哪 个 性 能 更 好 。 


14.5.3 ”构建 推荐 引擎 面临 的 挑战 


本 节 的 代码 很 好 地 展示 出 了 推荐 引擎 的 工作 流程 以 及 SVD 将 数据 映射 为 重要 特征 的 过 程 。 在 
撰写 这 些 代码 时 , 我 尽量 保证 它们 的 可 读 性 , 但 是 并 不 保证 代码 的 执行 效率 。 一 个 原因 是 ,我们 
不 必 在 每 次 估计 评分 时 都 做 SVD 分 解 。 对 于 上 述 数 据 集 , 是 否 包含 SVD 分 解 在 效率 上 没有 太 大 的 
区 别 。 但 是 在 更 大 规模 的 数据 集 上 ，SVD 分 解 会 降低 程序 的 速度 。SVD 分 解 可 以 在 程序 调 入 时运 
行 一 次 。 在 大 型 系统 中 ，SVD 每 天 运行 一 次 或 者 其 运行 频率 并 不 高 ， 并 且 还 要 离线 运行 。 

推荐 引擎 中 还 存在 其 他 很 多 规模 扩展 性 的 挑战 性 问题 比如 矩阵 的 表示 方法 。 在 上 面 给 出 的 
例子 中 有 很 多 0, 实际 系统 中 0 的 数目 更 多 。 也许 , 我 们 可 以 通过 只 存储 非 零 元 素来 节省 内 存 和 计 
算 开销 ? 另 一 个 潜在 的 计算 资源 浪费 则 来 自 于 相似 度 得 分 。 在 我 们 的 程序 中 , 每 次 需要 一 个 推荐 

得 分 时 , 都 要 计算 多 个 物品 的 相似 度 得 分 , 这 些 得 分 记录 的 是 物品 之 间 的 相似 度 。 因此 在 需要 时 ， 
i 一 个 用 户 重复 使 用 。 ER 另 一 个 普遍 的 做 法 就 是 离线 计算 并 保存 相似 度 
得 分 。 

推荐 引擎 面临 的 另 一 个 问题 就 是 如 何在 缺乏 数据 时 给 出 好 的 推荐 。 这 称 为 冷 启动 ( cold-start ) 

问题 ， 处 理 起 来 十 分 困难 。 这 个 问题 的 另 一 个 说 法 是 ,用 户 不 会 喜欢 一 个 无 效 的 物品 ， 而 用 户 不 
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喜欢 的 物品 又 无 效 。? 如 果 推 荐 只 是 一 个 可 有 可 无 的 功能 ， 那么 上 述 问题 倒 也 不 大 。 但 是 如 果 应 
用 的 成 功 与 否 和 推荐 的 成 功 与 否 密切 相关 ， 那么 问题 就 变 得 相当 严重 了 。 

冷 启动 问题 的 解决 方案 , 就 是 将 推荐 看 成 是 搜索 问题 。 在 内 部 表现 上 ， 不 同 的 解决 办 法 虽然 
有 所 不 同 , 但 是 对 用 户 而 言 却 都 是 透明 的 。 为 了 将 推荐 看 成 是 搜索 问题 , 我 们 可 能 要 使 用 所 需要 
推荐 物品 的 属性 。 在 餐馆 菜肴 的 例子 中 ,我 们 可 以 通过 各 种 标签 来 标记 菜肴 ,比如 素食 、 美 式 BBQ、 
价格 很 贵 等 。 同 时 ， 我 们 也 可 以 将 这 些 属性 作为 相似 度 计算 所 需要 的 数据 ， 这 被 称 为 基于 内 容 
( content-based ) 的 推荐 。 可 能 ,基于 内 容 的 推荐 并 不 如 我 们 前 面 介绍 的 基于 协同 过 滤 的 推荐 效果 
好 ， 但 我 们 拥有 它 ， 这 就 是 个 良好 的 开始 。 


14.6 ”基于 SVD 的 图 像 压缩 


在 本 节 中 , 我 们 将 会 了 解 一 个 很 好 的 关于 如 何 将 SVD 应 用 于 图 像 压缩 的 例子 。 通 过 可 视 化 的 
方式 , 该 例子 使 得 我 们 很 容易 就 能 看 到 SVD 对 数据 近似 的 效果 。 在 代码 库 中 , 我 们 包含 了 一 张 手 
写 的 数字 图 像 ， 该 图 像 在 第 2 章 使 用 过 。 原始 的 图 像 大 小 是 32x32=1024 像 素 ， 我 们 能 否 使 用 更 少 
的 像素 来 表示 这 张 图 呢 ? 如 果 能 对 图 像 进 行 压缩， 那么 就 可 以 节省 空间 或 带宽 开销 了 。 

我 们 可 以 使 用 SVD 来 对 数据 降 维 ， 从 而 实现 图 像 的 压缩 。 下 面 我 们 就 会 看 到 利用 SVD 的 手写 
数字 图 像 的 压缩 过 程 了 。 在 下 面 的 程序 清单 中 包含 了 数字 的 读 人 和 压缩 的 代码 。 要 了 解 最 后 的 压 
缩 效 果 ， 我 们 对 压缩 后 的 图 像 进行 了 重 构 。 打 开 svdRec.py 文 件 并 加 入 如 下 代码 。 


程序 清单 14-4 ”图像 压 缩 函数 
def printMat (inMat, thresh=0.8): 
for i in range(32) : 
for k in range(32) : 
if float (inMat [i,k]) > thresh: 
print 1, 
else: print 0， 
print '! 


def imgCompress (numSV=3， thresh=0 .8): 

myl = [] 

for line in open('0 5.txt').readlines(): 
newRow = [] 
for i in range(32): 

newRow.append (int (line [i])) 

myl .append (newRow) 

myMat = mat (my1) 

print "****xoriginal ma 七 工 诗 次 太太 去 克文 光明 

printMat (myMat, thresh) 

U,Sigma,vT = la.svd (myMat) 





Qa 也 就 是 说 ， 在 协同 过 滤 场 景 下 ， 由 于 新 物品 到 来 时 由 于 缺乏 所 有 用 户 对 其 的 喜好 信息 ， 因 此 无 法 判断 每 个 用 户 对 
其 的 喜好 。 而 无 法 判断 某 个 用 户 对 其 的 喜好 ， 也 就 无 法 利用 该 商品 。 译 者 注 
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SigRecon = mat (zeros( (numSV, numSsvVv))) 
for k in range (numSV) : 
SigRecon[k,k] = Sigma[k] 
reconMat = U[:, :numSV] *SigReconxVT [:numSV,，:] 
print "****reconstructed matrix using %d singular values******! 多 numSV 
printMat (reconMat, thresh) 


上 述 程序 中 第 一 个 函数 printMat () 的 作用 是 打印 矩阵 。 由 于 矩阵 包含 了 浮 点 数 ， 因 此 必须 
定义 浅 色 和 深 色 。 这 里 通过 一 个 阐 值 来 界定 , 后 面 也 可 以 调节 该 值 。 该 函数 遍历 所 有 的 和 矩阵 元 素 ， 
当 元 素 大 于 立 值 时 打印 1， 否 则 打印 0。 

下 一 个 函数 实现 了 图 像 的 压缩 。 它 允许 基于 任意 给 定 的 奇异 值 数 目 来 重 构图 像 。 该 函数 构建 
了 一 个 列表 , 然后 打开 文本 文件 ， 并 从 文件 中 以 数值 方式 读 入 字符 。 在 矩阵 调和 之 后 ,我 们 就 可 
以 在 屏幕 上 输出 该 矩阵 了 。 接 下 来 就 开始 对 原始 图 像 进 行 SVD 分 解 并 重 构图 像 。 在 程序 中 , 通过 
将 sigma 重 新 构成 SsigRecon 来 实现 这 一 点 。 sigma 是 一 个 对 角 和 矩阵 , 因此 需要 建立 一 个 全 0 和 矩阵 ， 
然后 将 前 面 的 那些 奇异 值 填充 到 对 角 线 上 。 最 后 , 通过 截断 的 uv 和 vi 矩阵 ， 用 SigRecon 得 到 重 构 
后 的 和 矩阵， 该 矩阵 通过 printMat () 函数 输出 。 

下 面 看 看 该 函数 的 运行 效果 ， 

>>> reload{svdRec) 

<module 'SVvdRec' from 'svdRec.py'> 

>>> SvARec.imgCompress (2) 


*xw*Original matrixkk*k** 
0000000000000 
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14.7 本 章 小 结 





在 大 规模 数据 集 上 ，SVD 的 计算 和 推荐 可 能 是 一 个 很 困难 的 工程 问题 。 通 过 离线 方式 来 进行 
SVD 分 解 和 相似 度 计算 ,是 一 种 减少 宛 余 计算 和 推荐 所 需 时 间 的 办 法 。 在 下 一 章 中 , 我 们 将 介绍 


在 大 数据 集 上 进行 机 器 学 习 的 一 些 工具 。 





法 。 协同 过 滤 的 核心 是 相似 度 计算 方法 ,， 有 很 多 相似 度 计算 方法 都 可 以 用 于 计算 物品 或 用 户 之 间 


的 相似 度 。 通 过 在 低 维 空间 下 计算 相似 度 ，SVD 提 高 了 推荐 系 引 擎 的 效果 。 





用 户 ， 协 同 过 滤 则 是 一 种 基于 用 户 喜 好 或 行为 数据 的 推荐 的 实现 方 


A 
| 


利用 SVD 简化 数据 
130。 和 原 数 目 1024 相 比 ， 我 们 获得 了 几乎 10 倍 的 压缩 比 。 
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32) 
x****reconstructed matrix using 2 singular valueS****** 


SVD 是 一 种 强大 的 降 维 工具 , 我 们 可 以 利用 SVD 来 逼近 矩阵 并 从 中 提取 重要 特征 。 通 过 保留 


可 以 看 到 ， 只 需要 两 个 奇异 值 就 能 相当 精确 地 对 图 像 实现 重 构 。 那 么 ,我 们 到 底 需 要 多 少 个 
0-1 的 数字 来 重 构图 像 呢 ? w 和 都 是 32 x 2 的 矩阵 ， 有 两 个 奇异 值 。 因 此 总 数字 数目 是 
矩阵 80% ~ 90% 的 能 量 ， 就 可 以 得 到 重要 的 特征 并 去 掉 噪 声 。SVD 已 经 运用 到 了 多 个 应 用 中 ， 其 
中 一 个 成 功 的 应 用 案例 就 是 推荐 引擎 。 


00000000001111111111111110000000 
0000000000111111111111111000000 0 
0000000000011111111111i1100000000 0 
0000000000001111111111000000000 0 
000000000000001111110000000000 0 0 
0000000000000000000000000000000 0 
0000000000000000000000000000000 0 
00000000000001111100000000000000 
00000000000011111111000000000000 
00000000000111111111100000000000 
00000000001111111111110000000000 
00000000001111111111110000000000 
00000000011110000000001000000000 
00000000111100000000001100000000 
0000000011110000000000111i10000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
000000001111000000000 01110000000 
000000001111000000000011i11000000 0 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
0000000011110000000.0001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
00000000111100000000001110000000 
0000000011110000000000111i10000000 
00000000111100000000001100000000 
00000000001111i1111111111000000000 
00000000001111111111i1110000000000 
00000000001i1111111111110000000000 
00000000000011111111i1100000000000 
00000000000011111111000000000000 
00000000000000000000000000000000 


推荐 引擎 将 物品 推荐 


(32, 





268 
64+64+2 








第 1 5 章 | x 
大 数据 与 MapReduce 
本 章 内 容 
口 MapReduce 
口 Python 中 Hadoop 流 的 使 用 


口 使 用 mrjob 库 将 MapReduce 自 动 化 
口 利用 Pegasos 算 法 并 行 训练 支持 向 量 机 


常 听 人 说 :“ 兄 弟 ,你 举 的 例子 是 不 错 ， 但 我 的 数据 太 大 了 !1” 毫 无 疑问 ， 工作 中 所 使 用 的 数 
据 集 将 会 比 本 书 的 例子 大 很 多 。 随 着 大 量 设备 连 上 互联 网 加 上 用 户 也 对 基于 数据 的 决策 很 感 兴 
趣 ， 所 收集 到 的 数据 已 经 远 远 超出 了 我 们 的 处 理 能 力 。 幸 运 的 是 ， 一 些 开 源 的 软件 项 目 提供 了 海 
量 数据 处 理 的 解决 方案 ,其 中 一 个 项 目 就 是 Hadoop， 它 采用 Java 语 言 编写 ， 支持 在 大 量 机 器 上 分 
布 式 处 理 数据 。 | 

假想 你 为 一 家 网 络 购物 商店 工作 ， 有 很 多 用 户 来 访问 网 站 ， 其 中 有 一 些 人 会 购买 商品 ， 有 一 
些 人 则 在 随意 浏览 后 离开 了 网 站 。 对 于 你 来 说 ， 可 能 很 想 识 别 那些 有 购物 意愿 的 用 户 。 如 何 实现 
这 一 点 ? 可 以 浏览 Web 服 务 器 日 志 找 出 每 个 人 所 访 问 的 网 页 。 日 志 中 或 许 还 会 记录 其 他 行为 ， 如 
果 这 样 ， 就 可 以 基于 这 些 行为 来 训练 分 类 带 。 唯一 的 问题 在 于 数据 集 可 能 会 非常 大 ， 在 单机 上 训 
练 算法 可 能 要 运行 好 儿 天 。 本章 就 将 介绍 一 些 实用 的 工具 来 解决 这 样 的 问题 ， 包括 Hadoop 以 及 一 
些 基 于 Hadoop 的 Python 工具 包 。 

Hadoop 是 MapReduce 框 架 的 一 个 免费 开源 实现 ， 本 章 首 先 简单 介绍 MapReduce 和 Hadoop 项 
目 , 然后 学 习 如 何 使 用 Python 编 写 MapReduce 作 业 ”。 这 些 作业 先 在 单机 上 进行 测试 , 之 后 将 使 用 
亚马逊 的 Web 服 务 在 大 量 机 器 上 并 行 执行 。 一 旦 能 够 熟练 运行 MapReduce 作 业 ， 本 章 我 们 就 可 以 
讨论 基于 MapReduce 处 理 机 器 学 习 算 法 任务 的 一 般 解 决 方案 。 在 本 章 中 还 将 看 到 一 个 可 以 在 
Python 中 自动 执行 MapReduce 作 业 的 mrjob 框 架 。 最 后 ， 介 绍 如 何 用 mrjob 构 建 分 布 式 SVM， 在 大 
量 的 机 器 上 并 行 训练 分 类 器 。 





@ 一 个 作业 即 指 把 一 个 MapReduce 程 序 应 用 到 一 个 数据 集 上 。 一 一 译 者 注 
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[| ey 人 ee a : 


优点 ， 可 在 短 时 间 内 完成 大 量 工作 。 
缺点 ， 算 法 必须 经 过 重 写 ， 需 要 对 系统 工程 有 一 定 的 理解。 
适用 数据 类 型 ， 数 值 型 和 标 称 型 数据 。 





MapReduce 是 一 个 软件 框架 ,可 以 将 单个 计算 作业 分 配给 多 台 计 算 机 执行 。 它 假定 这 些 作业 
在 单机 上 需要 很 长 的 运行 时 间 , 因此 使 用 多 台 机 器 缩短 运行 时 间 。 常见 的 例子 是 日 常 统计 数字 的 
汇总 ， 该 任务 单机 上 执行 时 间 将 超过 一 整 天 。 

尽管 有 人 声称 他 们 已 经 独立 开发 过 类 做 的 框架 ， 美 国 还 是 把 MapReduce 的 专利 颁发 给 了 
Google。Google 公 司 的 Jeffrey Dean 和 Sanjay Ghemawat 在 2004 年 的 一 篇 论文 中 第 一 次 提出 了 这 个 
思想 ， 该 论文 的 题目 是 “MapReduce: Simplified Data Processing on Large Clusters” “MapReduce 
的 名 字 由 函数 式 编程 中 常用 的 map 和 reduce 两 个 单词 组 成 。 

MapReduce 在 大 量 节点 组 成 的 集群 上 运行 。 它 的 工作 流程 是 : 单个 作业 被 分 成 很 多 小 份 ， 输 
人 数据 也 被 切片 分 发 到 每 个 节点 ， 各 个 节点 只 在 本 地 数据 上 做 运算 ， 对 应 的 运算 代码 称 为 mapper， 
这 个 过 程 被 称 作 map2 阶 段 。 每 个 mapper 的 输 出 通过 某 种 方式 组 合 (一 般 还 会 做 排序 )。 排 序 后 的 
结果 再 被 分 成 小 份 分 发 到 各 个 节点 进行 下 一 步 处 理工 作 。 第 二 步 的 处 理 阶 段 被 称 为 reduce 阶 段 ， 
对 应 的 运行 代码 被 称 为 reducer。reducer 的 输出 就 是 程序 的 最 终 执 行 结果 。 

MapReduce 的 优势 在 于 ， 它 使 得 程序 以 并 行 方式 执行 。 如 果 集 群 由 10 个 节点 组 成 ， 而 原 
先 的 作业 需要 10 个 小 时 来 完成 ， 那 么 应 用 MapReduce， 该 作业 将 在 一 个 多 小 时 之 后 得 到 同样 
的 结果 。 举 个 例子 ， 给 出 过 去 100 年 内 中 国 每 个 省 每 天 的 正确 气温 数据 ， 我 们 想 知道 近 100 年 
中 国 国 内 的 最 高 气温 。 这 里 的 数据 格式 为 ; <province><date><temp>。 为 了 统计 该 时 段 内 的 最 
高 温度 ， 可 以 先 将 这 些 数 据 根据 节点 数 分 成 很 多 份 ， 每 个 节点 各 自 寻 找 本 机 数据 集 上 的 最 高 
温度 。 这 样 每 个 mapper 将 产生 一 个 温度 ， 形 如 <“max”><temp>， 也 就 是 所 有 的 mapper 都 会 
产生 相同 的 key:“max” 字符 串 。 最 后 只 需要 一 个 reducer 来 比较 所 有 mapper 的 输出 , 就 能 得 到 


全 局 的 最 高 温度 值 。 


0 
注意 在 任何 时 候 ， 每 个 mapper 或 reducer 之 间 都 不 进行 通信 8@。 每 个 节点 只 处 理 自己 的 事务 ， 
且 在 本 地 分 配 的 数据 集 上 运算 。 





©D J. Dean，S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters,” OSDI ’04: 6th Symposium on 
Operating System Design and Implementa tion, San Francisco, CA, December, 2004. 

@ map、reduce 一 般 都 不 翻译 ,sort、 combine 有 人 分 别 翻译 成 排序 、 合 并 。 mapper 和 reducer 分 别 是 指 进行 map 和 reduce 
操作 的 程序 或 节点 ，key/value 有 人 翻译 成 键 / 值 。 这 几 个 词 ， 在 本 章 均 未 翻译 。 一 一 译 者 注 

@ 这 是 指 mapper 各 自 之 间 不 通信 ，reducer 各 自 之 间 不 通信 ， 而 reducer 会 接收 mapper 生 成 的 数据 。 一 一 译 者 注 
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不 同类 型 的 作业 可 能 需要 不 同 数目 的 reducer。 再 回 到 温度 统计 的 例子 ， 虽然 这 次 使 用 的 数据 集 
相同 , 但 不 同 的 是 这 里 要 找 出 每 年 的 最 高 温度 。 这 样 的 话 ， mapper 应 先 找 到 每 年 的 最 大 温度 并 输出 ， 
所 以 中 间 数 据 的 格式 将 形 如 <year><temp>。 此 外 ， 还 需要 保证 所 有 同一 年 的 数据 传递 给 同一 个 
reducer， 这 由 map 和 reduce 阶 段 中 间 的 sort 阶 段 来 完成 。 该 例 中 也 给 出 了 MapReduce 中 值得 注意 的 一 
点 ， 即 数据 会 以 key/value 对 的 形式 传递 。 这 里 ， 年 代 (year ) 是 key， 温度 (temp ) 是 value。 因 此 sort 
阶段 将 按照 年 代 把 数据 分 类 ， 之 后 合并 。 最 终 每 个 reducer 就 会 收 到 相同 的 key 值 。 

从 上 述 例子 可 以 看 出 ，reducer 的 数量 并 不 是 固定 的 。 此 外 ， 在 MapReduce 的 框架 中 还 有 其 他 
一 些 灵 活 的 配置 选项 。MapReduce 的 整个 编 配 工 作 由 主 节点 〈 master node ) 控制 。 这 些 主 节点 控 
” 制 整 个 MapReduce 作 业 编 配 ， 包 括 每 份 数据 存放 的 节点 位 置 ， 以 及 map、 sort 和 reduce 等 阶段 的 时 
序 控 制 等 。 此 外 ， 主 节点 还 要 包含 容错 机 制 。 一 般 地 ， 每 份 mapper 的 输入 数据 会 同时 分 发 到 多 个 
节点 形成 多 份 副 本 ， 用 于 事务 的 失效 处 理 。 一 个 MapReduce 集 群 的 示意 图 如 图 15-1 所 示 。 







扒 器 ! 


机 器 2 


图 15-1 MapReduce 框 架 的 示意 图 。 在 该 集群 中 有 3 台 双 核 机 器 ， 如 果 机 器 0 失效 ， 作 业 仍 可 
以 正常 继续 

图 15-1 的 每 台 机 器 都 有 两 个 处 理 器 , 可 以 同时 处 理 两 个 map 或 者 reduce 任 务 。 如 果 机 器 0 在 map 
阶段 宕 机 ， 主 节点 将 会 发 现 这 一 点 。 主 节点 在 发 现 该 问题 之 后 ， 会 将 机 器 0 移出 集群， 并 在 剩余 
的 节点 上 继续 执行 作业 。 在 一 些 MapReduce 的 实现 中 ， 在 多 个 机 器 上 都 保存 有 数据 的 多 个 备份 ， 
例如 在 机 器 0 上 存放 的 输入 数据 可 能 还 存放 在 机 器 1 上 ， 以 防 机 器 0 出 现 问题 。 同 时 ， 每 个 节点 都 
必须 与 主 节点 通信 ,表明 自己 工作 正常 。 如 果 某 节点 失效 或 者 工作 异常 ， 主 节点 将 重启 该 节点 或 
者 将 该 节点 移出 可 用 机 器 池 。 
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总 结 一 下 上 面 几 个 例子 中 关于 MapReduce 的 学 习 要 点 : 

口 主 节 点 控制 MapReduce 的 作业 流程 ; 

口 MapReduce 的 作业 可 以 分 成 map 任 务 和 reduce 任 务 ; 

口 map 任 务 之 间 不 做 数据 交流 ，reduce 任 务 也 一 样 ; 

口 在 map 和 reduce 阶 段 中间 ， 有 一 个 sort 或 combine 阶 段 ; 

口 数据 被 重复 存放 在 不 同 的 机 器 上 ， 以 防 某 个 机 器 失效 ， 

口 mapper 和 reducer 传 输 的 数据 形式 为 key/value 对 。 

Apache 的 Hadoop 项 目 是 MapReduce 框 架 的 一 个 实现 。 下 一 节 将 开始 讨论 Hadoop 项 目 ， 并 介 
绍 如 何在 Python 中 使 用 它 。 


15.2 ”Hadoop 流 


Hadoop 是 一 个 开源 的 Java 项 目 ， 为 运行 MapReduce 作 业 提 供 了 大 量 所 需 的 功能 。 除 了 分 布 式 
计算 之 外 ，Hadoop 自 带 分 布 式 文件 系统 。 

本 书 既 不 是 Java， 也 不 是 Hadoop 的 教材 ， 因 此 本 节 只 对 Hadoop 做 简单 介绍 ， 只 要 能 满足 在 
Python 中 用 Hadoop 来 执行 MapReduce 作 业 的 需求 即 可 。 如 果 读 者 想 对 Hadoop 做 深入 理解 ,可 以 阅 
读 《Hadoop 实 战 》9 或 者 浏览 Hadoop 官 方 网 站 上 的 文档 ( http://hadoop.apache.org/ )。 此 外 ,Mahout 
in action* 一 书 也 为 在 MapReduce 下 实现 机 器 学 习 算 法 提供 了 很 好 的 参考 资料 。 

Hadoop 可 以 运行 Java 之 外 的 其 他 语言 编写 的 分 布 式 程序 。 因 为 本 书 以 Python 为 主 ， 所 以 
下 面 将 使 用 Python 编 写 MapReduce 代 码 ， 并 在 Hadoop 流 中 运行 。Hadoop 流 (http://hadoop. 
apache. org/ common/docs/current/streaming.html ) 很 像 Linux 系 统 中 的 管道 ( 管道 使 用 符号 | ， 
可 以 将 一 个 命令 的 输出 作为 另 一 个 命令 的 输入 )。 如 果 用 mapperpy 调 用 mapper, 用 reducerpy 调 
用 reducer， 那 么 Hadoop 流 就 可 以 像 Linux 命 令 一 样 执行 ， 例 如 ; 


cat inputFile.txt | python mapper.py | sort | python reducer.py > 
outputFile.txt 


这 样 ， 类 似 的 Hadoop 流 就 可 以 在 多 台 机 器 上 分 布 式 执行 ， 用 户 可 以 通过 Linux 命 令 来 测试 
Python 语 言 编写 的 MapReduce 肢 本 。 


15.2.1 ”分布 式 计算 均值 和 方差 的 mapper 


接 下 来 我 们 将 构建 一 个 海量 数据 上 分 布 式 计算 均值 和 方差 的 MapReduce 作 业 。 示 范 起 见 ， 
这 里 只 选取 了 一 个 小 数据 集 。 在 文本 编辑 器 中 创建 文件 mrMeanMapperpy， 并 加 入 如 下 程序 清单 
中 的 代码 。 


Q@ Chuck Lam, Hadoop in Action (Manning Publications, 2010)， 中 文 版 由 人 民 邮 电 出 版 社 出 版 。 
© Sean Owen, Robin Anil Ted Dunning, and Ellen Friedman, Mahout in Action (Manning Publications, 2011)， 中 文 版 即将 


由 人 民 邮 电 出 版 社 出 版 。 
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程序 清单 15-1 ”分布 式 均值 和 方差 计算 的 mapper 


import sys 
from numpy import mat, mean, power 


def read input (file): 
for line in file: 
yield line.rstrip() 


input = read input (sys.stdin) 

input = [float (line) for iine in input] 
numInputs = len (input) 

input = mat (input) 

sqInput = power (input,2) 


print "%d\t%f\t%f" % (numInputs, mean (input), mean(sqInput)) 
print >> sys.stderr, "report: still alive" 


这 是 一 个 很 简单 的 例子 : 该 mapper 首 先 按 行 读 取 所 有 的 输入 并 创建 一 组 对 应 应 的 浮 点 数 , 然后 
得 到 数组 的 长 度 并 创建 NumPy 和 矩阵 。 再 对 所 有 的 值 进行 平方 , 最 后 将 均值 和 平方 后 的 均值 发 送出 
去 。 这 些 值 将 用 于 计算 全 局 的 均值 和 方差 。 


注意 一 个 好 的 习惯 是 向 标准 错误 输出 发 送 报告 。 如 果菜 作业 10 分 钟 内 没有 报告 输出 ， 则 将 
被 Hadoop 中 止 。 


下 面 看 看 程序 清单 15-1 的 运行 效果 。 首 先 确认 一 下 在 下 载 的 源码 中 有 一 个 文件 inputFile.txt， 
其 中 包含 了 100 个 数 。 在 正式 使 用 Hadoop 之 前 , 先 来 测试 一 下 mappero。 在 Linux 终 端 执行 以 下 命令 : 

cat inputFile.txt | python mrMeanMapper .py 

如 果 在 Windows 系 统 下 ， 可 在 DOS 窗 口 输入 以 下 命令 ; 


Python mrMeanMapper.py < inputFile.txt 


运行 结果 如 下 : 
100 0.509570 0.344439 


report: still alive 


其 中 第 一 行 是 标准 输出 ， 也 就 是 reducer 的 输入 ; 第 二 行 是 标准 错误 输出 ， 即 对 主 节 点 做 出 的 
响应 报告 ， 表 明 本 节点 工作 正常 。 


15.2.2 “分 布 式 计 算 均 值 和 方差 的 reducer 


至 此 ,mapper 已 经 可 以 工作 了 ,下 面 介绍 reducer。 根 据 前 面 的 介绍 ，mapper 接 受 原 始 的 输入 
并 产生 中 间 值 传递 给 reducer。 很 多 mapper 是 并 行 执行 的 ， 所 以 需要 将 这 些 mapper 的 输出 合并 成 一 
个 值 。 接 下 来 给 出 reducer 的 代码 : 将 中 间 的 key/value 对 进行 组 合 。 打 开 文 本 编辑 器 ， 建 立 文件 
mrMeanReducer.py， 然 后 输入 程序 清单 15-2 的 代码 。 
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程序 清单 15-2 分 布 式 均值 和 方差 计算 的 reducer 
import sys 
from numpy import mat, mean, power 


def read input (file) : 
for line in file: 
yield line.rstrip() 


input = read input (sys.stdin) 
mapperOut = [line.split('\t') for line in input] 
cumVal=0.0 
cumSumSq=0.0 
cumN=0.0 
for instance in mapperOut: 
nj = float (instance {0])} 
CumN += nj 
cumVal += nj*float (instance [1]) 
cumSumSq += nj*float (instance [2]) 
mean = cumVal/cumN 
varSum = (cumSumSq - 2*mean*cumVal + cumN*mean*mean) /cumN 
print "%d\t%f\t%f" $ (cumN, mean, varSum) 
print >> sys.stderr, "report: still alive 


程序 清单 15-2 就 是 reducer 的 代码 ， 它 接收 程序 清单 15-1 的 输出 ， 并 将 它们 合并 成 为 全 局 的 均 
值 和 方差 ， 从 而 完成 任务 。 

你 可 以 在 自己 的 单机 上 用 下 面 的 命令 测试 一 下 : 

scat inputFile.txt | python mrMeanMapper.py | python mrMeanReducer.py 
如 果 是 DOS 环 境 ， 键 人 如 下 命令 : 

gpython mrMeanMapper .py < inputFile.txt | python mrMeanReducer .py 


后 面 的 章节 将 介绍 如 何在 多 台 机 器 上 分 布 式 运行 该 代码 。 你 手边 或 许 没有 10 台 机 器 , 没有 问 
题 ， 下 节 就 会 介绍 如 何 租用 服务 器 。 


15.3 在 Amazon 网 络 服务 上 运行 Hadoop 程序 


如 果 要 在 100 台 机 器 上 同时 运行 MapReduce 作 业 ， 那 么 就 需要 找到 100 台 机 器 ， 可 以 采取 购买 
的 方式 ,或 者 从 其 他 地 方 租用 。Amazon 公 司 通过 Amazon 网 络 服务 (Amazon Web Services，AWS， 
http://aws.amazon.com/ )， 将 它 的 大 规模 计算 基础 设施 租借 给 开发 者 。 

AWS 提 供 网 站 、 流 媒体 、 移 动 应 用 等 类 似 的 服务 ， 其 中 存储 、 带 宽 和 计算 能 力 按 价 收 费 , 用 
户 可 以 仅 为 使 用 的 部 分 按时 缴费 , 无需 长 期 的 合同 。 这 种 仅 为 所 需 买单 的 形式 ,使 得 AWS 很 有 诱 
惑 力 。 例 如 ， 当 你 临时 需要 使 用 1000 台 机 器 时 ， 可 以 在 AWS 上 申请 并 做 几 天 实验 。 几 天 后 当 你 发 
现 当 前 的 方案 不 可 行 ， 就 即时 关 掉 它 ， 不 需要 再 为 这 1000 台 机 器 支出 任何 费用 。 本 节 首 先 介 绍 几 
个 目前 在 AWS 上 可 用 的 服务 ， 然 后 介绍 AWS 上 运行 环境 的 搭建 方法 ， 最 后 给 出 了 一 个 在 AWS 上 
运行 Hadoop 流 作业 的 例子 。 
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15.3.1 AWS 上 的 可 用 服务 


AWS 上 提供 了 大 量 可 用 的 服务 。 在 行内 人 士 看 来 , 这 些 服务 的 名 字 很 容易 理解 , 而 在 新 手 看 
来 则 比较 神秘 。 目 前 AWS 还 在 不 停 地 演变 ,也 在 不 断 地 添加 一 些 新 的 服务 。 下 面 给 出 一 些 基 本 的 
0 简单 存储 服务 ， 用 于 在 网 络 上 存储 数据 ， 需要 与 其 他 AWS 产 品 配 合 使 用 。 用 户 可 

以 租借 一 组 存储 设备 ， 并 按照 数据 量 大 小 及 存储 时 间 来 付费 。 

口 EC2 弹性 计算 云 (Blastic Compute Cloud )， 是 使 用 服务 器 镜像 的 一 项 服务 。 它 是 很 多 
AWS 系 统 的 核心 ， 通 过 配置 该 服务 器 可 以 运行 大 多 数 的 操作 系统 。 它 使 得 服务 器 可 以 以 
镜像 的 方式 在 几 分 钟 内 启动 ， 用 户 可 以 创建 、 存储 和 共享 这 些 镜像 。EC2 中 “弹性 ”的 由 
来 是 该 服务 能 够 迅速 便捷 地 根据 需求 增加 服务 的 数量 。 

口 Elastic MapReduce (EMR ) 一 一 弹性 MapReduce， 它 是 AWS 的 MapReduce 实 现 ， 搭 建 
于 稍 旧版 本 的 Hadoop 之 上 (Amazon 希望 保持 一 个 稳定 的 版 本 ， 因此 做 了 些 修 改 , 没有 
使 用 最 新 的 Hadoop )。 它 提供 了 一 个 很 好 的 GUIL， 并 简化 了 Hadoop 任 务 的 启动 方式 。 用 
户 不 需要 因为 集群 琐碎 的 配置 《 如 Hadoop 系 统 的 文件 导入 或 Hadoop 机 器 的 参数 修改 ) 
而 多 花心 思 。 在 EMR 上 ， 用 户 可 以 运行 Java 作 业 或 Hadoop 流 作业 ， 本 书 将 对 后 者 进行 
介绍 。 

另外 , 很 多 其 他 服务 也 是 可 用 的 , 本 书 将 着 重 介绍 EMR。 下 面 还 需要 用 到 S3 服 务 ， 因为 EMR 
需要 从 S3 上 读 取 文件 并 启动 安装 Hadoop 的 EC2 服 务 器 镜像 。 


15.3.2 ”开启 Amazon 网 络 服务 之 旅 


使 用 AWS 之 前 ， 首 先 需要 创建 AWS 账 号 。 开 通 AWS 账 号 还 需要 一 张 信 用 卡 ， 后 面 章节 中 的 
练习 将 花费 大 约 1 美 元 的 费用 。 打 开 http:/aws.amazon.com/ 可 以 看 到 如 图 15-2 所 示 的 界面 ,在 右上 
部 有 “现在 注册 ”( Sign Up Now ) 按钮 。 点 击 后 按照 指令 进行 ， 经 过 三 个 页 面 就 可 以 完成 AWS 
的 注册 。 注意 ， 你 需要 注册 S3、EC2 和 EMR 三 项 服务 。 

建立 了 AWS 账 号 后 ， 登 录 进 AWS 控 制 台 并 点 击 EC2、Elastic MapReduce 和 S3 选 项 卡 ， 确认 你 
是 否 已 经 注册 了 这 些 服务 。 如 果 你 没有 注册 某 项 服务 ， 会 看 到 如 图 15-3 所 示 的 提示 。 
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这 样 就 做 好 了 在 Amazon 集 群 上 运行 Hadoop 作 业 的 准备 , 下 一 节 将 介绍 在 EMR 上 运行 Hadoop 
的 具体 流程 。 


15.3.3 ”在 EMR 上 运行 Hadoop 作业 


注册 了 所 需 的 Amazon 服 务 之 后 ， 登 录 AWS 控 制 台 并 点 击 S3 选 项 卡 。 这 里 需要 将 文件 上 传 ， 
以 便 AWS 能 找到 我 们 提供 的 文件 。 

(1) 首先 需要 创建 一 个 新 的 bucket (可 以 将 bucket 看 做 是 一 个 驱动 器 )。 例 如 ， 创建 了 一 个 叫 
做 rustbucket 的 bucket。 注意 ， bucket 的 名 字 是 唯一 的 ， 所 有 用 户 均 可 使 用 。 你 应 当 为 自己 的 bucket 
创建 独特 的 名 字 。 

(2) 然后 创建 两 个 文件 夹 :， mrMeanCode 和 mrMeanInput。 将 之 前 用 Python 编 写 的 MapReduce 
代码 上 传 到 mrMeanCode， 另 一 个 目 录 mrMeanInput 用 于 存放 Hadoop 作 业 的 输入 。 

(3) 在 已 创建 的 bucket 中 (如 rustbucket ) 上 传 文件 inputFile.txt 开 mrMeanInput 目 录 。 

(4) 将 文件 mrMeanMapperpy 和 mrMeanReducerpy 上 传 到 mrMeanCode 目录 。 这 样 就 完成 了 全 
部 所 需 文件 的 上 传 ， 也 做 好 了 在 多 台 机 器 上 启 动 第 一 个 Hadoop 作 业 的 准备 6 

(5) 点 击 Elastic MapReduce 选 项 卡 ， 点 击 “创建 新 作业 流 ”( Create New Job Flow ) 按钮， 并 
将 作业 流 命 名 为 mrMean007。 屏幕 上 可 以 看 到 如 图 15-4 所 示 的 页 面 , 在 下 方 还 有 两 个 复 选 框 和 一 
个 下 拉 框 ， 选 择 “ 运 行 自己 的 应 用 程序 ”( Run Your Own Application ) 按钮 并 点 击 “ 继 续 ” 
( Continue ) 进入 到 下 一 步 。 










Create a New Job Flow Cancel ix| 


OEFINE }03 FLOW A CO, EC Pv CPS ED NY 


Creating a job flow to process your data using Amazon Elastic MapReduce is simpte and quick. Let's begin by giving your job flow a 
name and selecting its type, If you don't aiready have an application you'd like to run on Amazon Elastic MapReduce, samples are 
availabie to help you get started, 


Job Flow Names: [mrMean007[ | 














Job Flow Name doegnt need to be uniqdue, We 5099est VGU ve i a descnptve Fame. 
Pr a [一 
Create 9 Job Flow*: ® Run your own application | A Streaming job flow runs a single Hadoop job consisting 
人 Re | of map and reduce functions that you have uploaded to 
© Run a sampte application | Amazon 53. The functions can be implemented in any of 
i the following supported languages; Ruby, Perl, Python, 


Steaming ! , Bash, C++. 
[Steaning {rl | PHP, R, Bash C++ 
| 


TE ee 








* Required field 


Ce 


图 15-4 EMR 的 新 作业 流 创建 页 面 
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(6) 在 这 一 步 需 要 设 定 Hadoop 的 输入 参数 。 如 果 这 些 参数 设置 错误 ， 作 业 将 会 执行 失败 。 在 
“指定 参数 ”( Specify Parameters ) 页 面 的 对 应 字段 上 输入 下 面 的 内 容 : 

Input Locationm ， <your bucket name>/mrMeanInput/inputFile.txt 

Output Location’: <your bucket name>/mrMean007Log 

Mapper’: "Python s3n:// <your bucket name>/mrMeanCode/mrMeanMapper .py" 

Reducer’; "python s3n:// <your bucket name>/mrMeanCode/mrMeanReducer .py" 

可 以 将 “其 他 参数 ”( Extra Args ) 字段 留 空 。 该 字段 的 作用 是 指定 一 些 其 他 参数 ， 如 reducer 
的 数量 。 本 页 面 将 如 图 15-5 所 示 ， 点 击 “ 继 续 ”( Continue )。 





Create a New Job Flow 
下 


) 
SPECITY PARARE IERS 


Specify Mapper and Reducer functions to run within the Job Flow. The mapper and reducers niay be either (i) class names referring 
to a mapper or reducer class in Hadoop or (ii) locations in Amazon S3, (Click Here for a list of available tools to help you upload and 
download files from Amazon 53,) The format for specifying 3 location in Amazon S3 is bucket_name/path_name. The location shoutd 
point to an executable program, for example a python program, Extra arguments are passed to the Hadoop streaming program 
and can specify things such as additional fles to be loaded into the distributed cache. 
Input Location*: [<your bucket name>/mrMeaninpuUinputFileAxt 
The URE of the Amazon £3 Bucker th h 





Output Location*: |<your bucket name>/mrMean007/Log 


basil bl leeds ont 
The URL of the Amazon S3 Bucket to more outpul files. Should 
be unique、 


Mapper*: |'pylhon s3n//<your bucket name>/mrMeanCodeimMear 


The mapper Amazan S3 locatian or streaming cammand to 
kxecUto. 


Reducer®: |-python s3nVf<your bucket name>/mMeanCodemMeal 
The reducer Amazon S3 location or streaming command to 
Execute 


Extra Args:| 





Wa 


“ Required fleld 


Continue ia 


图 15-5” EMR 的 指定 参数 页 面 


(7) 下 一 个 页 面 需 要 设 定 EC2 的 服务 器 镜像 ， 这 里 将 设 定 用 于 存储 数据 的 服务 器 数量 ,默认 值 是 
2， 可 以 改 成 1。 你 也 可 以 按 需 要 改变 EC2 服 务 器 镜像 的 类 型 ， 可 以 申请 一 个 大 内 存 高 运算 能 力 的 机 
器 ( 当然 也 花费 更 多 )。 实 际 上 ， 大 的 作业 经 常 在 大 的 服务 器 镜像 上 运行 ， 详 见 http://aws. amazon. 
com/ec2/#instance。 本 节 的 简单 例子 可 以 选用 很 小 的 机 器 。 本 页 面 如 图 15-6 所 示 ， 点 击 “ 继 续 ” 
( Continue )。 

(8) 下 一 个 是 “高 级 选项 ”( Advanced Options ) 页 面 ， 可 以 设 定 有 关 调 试 的 一 些 选项 。 务 必 
打开 日志 选项 ， 在 “亚马逊 S3 日 志 路 径 ”( Amazon S3 Log Path ) 里 添加 s3n://<your bucket 
name>/mrMean007DebugLog。 只 有 注册 SimpleDB 才 能 开启 Hadoop 调 试 服务 ， 它 是 Amazon 的 访 
问 非 关系 数据 库 的 简单 工具 。 虽 然 开 启 了 该 服务 , 但 我 们 不 准备 使 用 它 来 调试 Hadoop 流 作业 。 当 
一 个 Hadoop 作 业 失 败 , 会 有 一 些 失 败 信 息 写 人 上 述 目 录 , 回头 读 一 下 这 些 信息 就 可 以 分 析 在 哪里 
出 了 问题 。 整 个 页 面 如 图 15-7 所 示 ， 点 击 “ 继 续 ”( Continue )。 
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( Create Job Flow ) 按钮 。 这 样 新 任务 就 创建 好 了 ， 在 下 一 个 页 面 点 击 “关闭 ”( Close ) 按钮 将 返 
回 EMR 控 制 台 。 当 作业 运行 的 时 候 ， 可 以 在 控制 台 看 到 其 运行 状态 。 读 者 不 必 担 心 运 行 这样 一 个 
小 作业 花费 了 这 么 多 时 间 ， 因 为 这 里 包含 了 新 的 服务 器 镜像 的 配置 。 最 终 页 面 如 图 15-8 所 示 ( 可 
能 你 那里 不 会 有 这 么 多 的 失败 作业 )。 


Create a New Job Flow 


4 CONHGURE ECZ INSTANCES i i 
mpfiete the limit request form. 


人 


Specify the Master, Core and Task Nodes to run your job flow, For more than 20 instance6, 50| 


Master Instance Group: This EC2 instance assians Hadoop tasks to Core and Task Nodes and monitors thelr status. 






























: Tstonce mpe [Bratsmal) Oaeevest spor maonee 
Core Instance Group: These EC2 instances run Hadoop tasks and store data Using the Hadoop Distributed File System (HDFS). ;Elastic Deanstalk 
| Recommended for capacity needed for the life of your job flow, | 
| 7 a Your Flastic MapReduce Job Flows 
' ntance Condt [1 a | Region | 加 UsEast | || 售 Creste How JobFlow | te | 图 Snownde | 命 Retresh || DHep | 
. Instance Type [Small mismad [eReavest Spot nstances Lt A | ey | 
et a - .3 ls < 2 
Task Instance Group (Optional): These EC2 instances run Hadoop tasks, but do not persist data. Recommended for capacity | ‘ Name i sale Es 7 - | 3 1toGol6JobFow 2 7 1 
needed on a temporary basis. ， St 。 Creation Date Elapsed Time ” . Normalized Instance Houre 
| ee 人 :mMean007 | sr 22 16: i 站 
| on 6 ee : > ARTING 2011.02-22 45:21 PST Ohours 0 minutes :0 
ee | :; My Job Flow : %¥ COMP .02: i | 
| Instance Type: [Smal misnal [© 口 keauest spot Instances Le : MPLETED 2011-02-22 14:22PST : Ohours 2 minutes i 1 
ee ey MyJobFlow4 : BFALED 2011-02-22 08:43 PST ‘ Ohours 3 minutes ， 1 
| My Job Flow2 翅 FAILED 2011.02.2208.26PST | Ohours 3 minutes 1 
| 忆 江 有: 
| | DD ;My Job Flow2 : ‘OFALLED 2011-02-22 07:29 PST 0hours 3 minutes 1 
:| DD: My Job Flow | BFAILED ! | 
、 { 有 2011-02.22 07:25 PST Qhours Ominutes | 0 
看 吕 - | 
图 15-6 ” 设 定 EMR 的 EC2 服 务 器 镜像 的 页 面 ， 在 该 页 面 上 可 以 设 定 MapReduce 作 业 所 需 的 服 | 口 mMean 全 FALED 2011:02:2207:17 PST : 0hours ominutes | 0 

















务 器 类 型 和 服务 器 数量 


NA 


15-8 EMR 控 制 台 显示 出 了 一 些 MapReduce 作 业 ， 本 章 的 MapReduce 作 业 已 经 在 这 张 图 中 启动 


新 建 的 任务 将 在 开始 运行 几 分 钟 之 后 完成 ， 可 以 通过 点 击 控制 台 顶 端的 $3 选项 卡 来 观察 $3 
的 输出 。 选 中 $3 控制 全 后 ， 点 击 之 前 创建 的 bucket ( 本 例 中 是 rustbucket )。 在 这 个 bucket 里 应 该 可 
以 看 到 一 个 mrMean007Log 目 录 。 双 击 打开 该 目录 ， 可 以 看 到 一 个 文件 part-00000， 该 文件 就 是 
reducer 的 输出 。 双 击 下 载 该 文件 到 本 地 机 器 上 ， 用 文本 编辑 器 打开 该 文件 ， 结 果 应 该 是 这 样 的 ; 

100 0.509570 0.344439 

这 个 结果 与 单机 上 用 管道 得 到 的 测试 结果 一 样 ， 所 以 该 结果 是 正确 的 。 如 果 结 果 不 正确 ， 应 当 
怎样 找到 问题 所 在 呢 ? 退回 到 EMR 选 项 卡 , 点 击 “ 已 经 完成 的 任务 ”( Completed Job ), 可 以 看 到 “ 调 
试 ”( Debug ) 按钮 ， 上 面 还 有 一 个 绿色 小 昆虫 的 动画 。 点 击 该 按钮 将 打开 调试 窗口 ， 可 以 访问 不 同 
的 日 志文 件 。 另 外 ， 点 击 “ 控 制 器 ”( Controller ) 超 链接 ， 可 以 看 到 Hadoop 命 令 和 Hadoop 版 本 号 。 

现在 我 们 已 经 运行 了 一 个 Hadoop 流 作业 ， 下 面 将 介绍 如 何在 Hadoop 上 执行 机 器 学 习 算 法 。 
MapReduce 可 以 在 多 台 机 器 上 运行 很 多 程序 ， 但 这 些 程 序 需 要 做 一 些 修 改 。 


Create a New Job Flow Cancel IX| 


EE 和 CoGDEUEE LL? BSLELY ADYAHCED OFTIONS Ni 


1 Here you can select an EC2 key pair, configure your cluster to use VPC, set your job flow debugging options, and enter advanced 
job flow details such as whether ttis a long running duster, 
| Amaron EC2 Key Palr: [Proceed wihoul an EC2 Key Pair | 

Use an existing Key Pair to SSH into the master node of the Amazon EC2 cluster as the user “hadoop 


Configure your logging options, Learn more. 


Amazon 53 Log Path {33.1<your bucket name>/rtieand07Debugiog | 
(Optional): pr 





The URL of the Armaron S3 bucket in which your jeb flo%r logs villi be stered、 


Enable Debugging: ® Yes © No 
An index of your logs will be stored in Amazon SimpleDB. An Amazan S3 Loq Path is required. 


Set adyanced job fow options. 
KeepAlive OD Yes No This job few will run until manuatly terminated. 


' : 人 不 使 用 AWS 本 
如 果 读者 不 希望 使 用 信用 卡 ， 或 者 怕 滁 吉 自 己 的 信用 卡 信息 ， 也 能 在 本 地 机 器 上 运行 同样 
的 作业 。 下 面 的 步骤 假定 你 已 经 安装 了 Hadoop〔http:/hadoop.apache.org/common/docs/stable/# 
Getting+Started )。 
(1) 将 文件 复制 到 HDES: 


>hadoop fs -copyFromLocal inputFile.txt mrmean-i 


(2) 启动 任务 : 


= Required fiPld 


Continue a 





图 15-7 “EMR 的 高 级 选项 页 面 ， 可 以 设 定 调试 文件 的 存放 位 置 ， 也 可 以 设 定 继续 目 
动 运行 机 制 。 作业 失败 还 可 以 设 定 登录 服务 器 所 需 的 登录 密 钥 。 如 果 想 检 
查 代码 的 运行 环境 ， 登 录 服 务 器 再 查看 是 个 很 好 的 办 法 


(9) 关键 的 设置 已 经 完成 ， 可 以 在 接 下 来 的 引导 页 面 使 用 默认 的 设 定 ， 一 直 点 “下 一 步 
(Next) 到 查看 (Review ) 页 面 。 检 查 一 下 所 有 的 配置 是 否 正确 ， 然 后 点 击 底部 的 “创建 作业 流 ” 
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>hadoop jar  $HADOOP HOME/contrib/streaming/hadoop-0.20.2-stream- 
ing.jar -input mrmean-i -output mrmean-o -mapper "python mrMeanMap- 
per.py" -reducer "python mrMeanReducer.py'" 

(3) 观察 结果 : 


>hadoop fg -cat mrmean-o/part-00000 


(4) 下 载 结果 : 


>hadoop fs -copyToLocal mrmean-o/part-00000 ， 


完成 


15.4 MapReduce 上 的 机 器 学 习 


在 10 台 机 器 上 使 用 MapReduce 并 不 能 等 价 于 当前 机 器 10 倍 的 处 理 能 力 。 在 MapReduce 代 码 编 
写 合 理 的 情况 下 , 可 能 会 近似 达到 这 样 的 性 能 , 但 不 是 每 个 程序 都 可 以 直接 提速 的 , map 和 reduce 
函数 需要 正确 编写 才 行 。 

很 多 机 器 学 习 算法 不 能 直接 用 在 MapReduce 框 架 上 。 这 也 没关系 ,正如 老话 所 说 :“ 需 求 是 发 

明之 母 。” 科学 家 和 工程 师 中 的 一 些 先 驱 已 完成 了 大 多 数 常 用 机 器 学 习 算 法 的 MapReduce 实 现 。 

下 面 的 清单 简要 列 出 了 本 书 常用 的 机 器 学 习 算 法 和 对 应 的 MapReduce 实 现 。 

口 简单 贝 叶 斯 一 一 它 属于 为 数 不 多 的 可 以 很 自然 地 使 用 MapReduce 的 算法 。 在 MapReduce 中 
计算 加 法 非常 容易 ， 而 简单 贝 叶 斯 正 需 要 统计 在 某 个 类 别 下 某 特征 的 概率 。 因 此 可 以 
将 每 个 指定 类 别 下 的 计算 作业 交 由 单个 的 mapper 处 理 , 然后 使 用 reducer 来 将 结果 加 和 。 

口 大 近邻 算法 一 一 该 算法 首先 试图 在 数据 集 上 找到 相似 向 量 ， 即 便 数 据 集 很 小 ， 这 个 步骤 也 
将 花费 大 量 的 时 间 。 在 海量 数据 下 ， 它 将 极 大 地 影响 日 常 商业 周期 的 运转 。 一 个 提速 的 办 
法 是 构建 树 来 存储 数据 ， 利 用 树 形 结构 来 缩小 搜索 范围 。 该 方法 在 特征 数 小 于 10 的 情况 下 
效果 很 好 。 高 维 数据 下 ( 如 文本 、 图 像 和 视频 ) 流行 的 近邻 查找 方法 是 局 部 敏感 哈 希 算法 。 

口 支持 向 量 机 ( SVM ) 一 一 第 6 章 使 用 的 Platt SMO 算 法 在 MapReduce 框 架 下 难以 实现 。 但 有 
一 些 其 他 SVM 的 实现 使 用 随机 梯度 下 降 算法 求解 ， 如 Pegasos 算 法 。 另 外 ， 还 有 一 个 近似 
的 SVM 算 法 叫做 最 邻近 支持 向 量 机 ( proximal SVM ), 求解 更 快 并 且 易 于 在 MapReduce 框 
架 下 实现 "。 

口 奇异 值 分 解 一 一 Lanczos 算 法 是 一 个 有 效 的 求解 近似 特征 值 的 算法 。 该 算法 可 以 应 用 在 一 
系列 MapReduce 作 业 上 ， 从 而 有 效 地 找到 大 和 矩阵 的 奇异 值 。 另 外 ,该 算法 还 可 以 应 用 于 主 
成 分 分 析 。 

口 -均值 聚 类 一 一 一 个 流行 的 分 布 式 聚 类 方法 叫做 canopy 育 类 , 可 以 先 调用 canopy 聚 类 法 取 
得 初始 的 x 个 艇 ,然后 再 运行 K- 均 值 聚 类 方法 。 














© Glenn Fung, Olvi L. Mangasarian, “PSVM: Proximal Support Vector Machine,” http://www.cs.wisc.edu/dmi/svm/psvm/. 
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如 果 读 者 有 兴趣 了 解 更 多 机 器 学 习 方 法 的 MapReduce 实 现 , 可 以 访问 Apache 的 Mahout 项 目 主 
页 (http://mahout.apache.org/ ) 以 及 参考 Mahout in 4Action 一 书 。 其 中 Mabhout 项 目 以 J ava 详 言 编写 ， 
该 书 也 对 处 理 大 规模 数据 的 实现 细节 做 了 很 详细 的 介绍 。 另 一 个 关于 MapReduce 很 棒 的 资源 是 
Jimmy Lin 和 Chris Dyer 写 的 Data Intensive Text Processing with Map/Reduce— 书 。 

接 下 来 将 介绍 一 个 可 以 运行 MapReduce 作 业 的 Python 工具 。 


15.5 “在 Python 中 使 用 mrjob 来 自动 化 MapReduce 


上 面 列举 的 算法 大 多 是 迭代 的 。 也 就 是 说 ， 它 们 不 能 用 一 次 MapReduce 作 业 来 完成 ， 而 通常 
需要 多 步 。 在 15.3 节 中 ，Amazon 的 EMR 上 运行 MapReduce 作 业 只 是 一 个 简 例 。 如 果 想 在 大 数据 集 
上 运行 AdaBoost 算 法 该 怎么 办 呢 ? 如 果 想 运行 10 个 MapReduce 作 业 呢 ? 

有 一 些 框架 可 以 将 MapReduce 作 业 流 自动 化 ， 例 如 Cascading 和 Oozie， 但 它们 不 支持 在 
Amazon 的 EMR 上 执行 。Pig 可 以 在 EMR 上 执行 ， 也 可 以 使 用 Python 脚本 ， 但 需要 额外 学 习 一 种 
脚本 语言 。( Pig 是 一 个 Apache 项 目 , 为 文本 处 理 提供 高 级 编程 语言 , 可 以 将 文本 处 理 命令 转换 
成 Hadoop 的 MapReduce 作 业 。) 还 有 一 些 工具 可 以 在 Python 中 运行 MapReduce 作 业 ， 如 本 书 将 
要 介绍 的 mrjob。 

mrjob?( http://packages.python.org/mrjob/ ) 之 前 是 Yelp( 一 个 餐厅 点 评 网 站 ) 的 内 部 框架 ， 
它 在 2010 年 底 实 现 了 开源 。 读 者 可 以 参考 附录 A 来 学 习 如 何 安装 和 使 用 。 本 书 将 介绍 如 何 使 用 
mrjob 重 写 之 前 的 全 局 均值 和 方差 计算 的 代码 ， 相 信 读 者 能 体会 到 mrjob 的 方便 快捷 。 (需要 指出 
的 是 ，mrjob 是 一 个 很 好 的 学 习 工 具 ， 但 仍然 使 用 Python 语言 编写 ， 如 果 想 获得 更 好 的 性 能 ， 应 
该 使 用 Java。 ) 


15.5.1 mrjob 与 EMR 的 无 颖 集成 


与 15.3 节 介绍 的 一 样 ， 本 节 将 使 用 mrjob 在 EMR 上 运行 Hadoop 流 ， 区 别 在 于 mrjob 不 需要 上 传 
数据 到 S3 ， 也 不 需要 担心 命令 输入 是 否 正确 ， 所 有 这 些 都 由 mrjob 后 台 完 成 。 有 了 mrjob， 读 
者 还 可 以 在 自己 的 Hadoop 集 群 上 运行 MapReduce 作 业 ， 当 然 也 可 以 在 单机 上 进行 测试 。 作 业 
在 单机 执行 和 在 EMR 执 行 之 间 的 切换 十 分 方便 。 例 如 ， 将 一 个 作业 在 单机 执行 ， 可 以 输入 以 下 
命令 : 

% python mrMean.py < inputFile.txt > myOut.txt 

如 果 要 在 EMR 上 运行 同样 的 任务 ， 可 以 执行 以 下 命令 : 

% Python mrMean.py -r emr < inputFile.txt > myOut.txt 

在 15.3 节 中 , 所 有 的 上 传 以 及 表单 填写 全 由 mrjob 自 动 完成 。 读者 还 可 以 添加 一 条 在 本 地 的 Hadoop 
集群 上 执行 作业 的 命令 8， 也 可 以 添加 一 些 命令 行 参数 来 指定 本 作业 在 EMR 上 的 服务 器 类 型 和 数目 。 





CD mrjob 文 档 : http://packages.python.org/mrjob/index.html; 源 代码 : https://github.com/Yelp/mrjob. 
@ 意 指 除了 上 面 两 条 命令 之 外 ， 再 加 一 条 。 译 者 注 
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另外 , 15.3 节 中 的 mapper 和 reducer 分 别 存 于 两 个 不 同 的 文件 中 ,而 mrjob 中 的 mapper 和 reducer 
可 以 写 在 同一 个 脚本 中 。 下 节 将 展示 该 脚本 的 内 容 ， 并 分 析 其 工作 原理 。 


15.5.2 ”mrjob 的 一 个 MapReduce 脚本 剖析 


用 mrjob 可 以 做 很 多 事情 ， 本 书 仍 从 最 典型 的 MapReduce 作 业 开始 介绍 。 为 了 方便 阐述 ， 继 
续 沿用 前 面 的 例子 ， 计算 数据 集 的 均值 和 方差。 这 样 读 者 可 以 更 专注 于 框架 的 实现 细节 ， 所 以 程 
序 清单 15-3 的 代码 与 程序 清单 15-1 和 程序 清单 15-2 的 功能 一 致 。 打开 文本 编辑 器 ， 创 建 一 个 新 文 
件 mrMean.py， 并 加 入 下 面 程序 清单 的 代码 。 


程序 清单 15-3 ”分布 式 均值 方差 计算 的 mrjob 实 现 


from mrjob ,job import MRJOb 


class MRmean (MRJob) : 
def _init_ (seif, *args, **kwargs): 
super (MRmean, self). init _(*args, **kwargs) 
self.inCount = 0 
self.inSum = 0 
self.inSqSum = 0 


def map (self, key, val): | 接收 输入 数据 流 


if False: yield 
inVal = float (val) 
, self.inCount += 1 
self .insum += inVal 
self.insdqsum += inval*inVal 


def map final(self): su 所 有 输入 到 达 后 开始 处 理 


mn = self.insum/self.inCount 
mSsq = self .insqSum/self .inCount 
yield (1, [self.inCount, mn, mnsq]) 


def reduce (self, key, PackedValues) : 
cumVal=0.0; cumSumSq=0.0; cumN=0.0 
for valArr in packedVvalues: 
nj = float (valArr [0}) 
cumN += nj 
cumVal += nj*float (valArr [1]) 
cumSumSd += nj*float (valArr [21) 
mean = cumVal/cumN 
var = (cumSumSq - 2*mean*cumVal + cumN*+mean*mean) /cumN 
yield (mean, var) 


def steps (self): 
return ([self .mr (mapper=self .map, reducer=gelf .reduce, \ 
mapper final=self .map_final)}) 
if name == '_ main _': 
MRmean .run() 


该 代码 分 布 式 地 计算 了 均值 和 方差 。 输入 文本 分 发 给 很 多 mappers 来 计算 中 间 值 ， 这 些 中 间 
值 再 通过 reducer 进 行 累 加 ， 从 而 计算 出 全 局 的 均值 和 方差 。 
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为 了 使 用 mrjob 库 ， 需 要 创建 一 个 新 的 mRjob 继 承 类 ， 在 本 例 中 该 类 的 类 名 为 namean。 代 码 
中 的 mapper 和 reducer 都 是 该 类 的 方法 ， 此 外 还 有 一 个 叫做 steps () 的 方法 定义 了 执行 的 步骤 。 执 
ee 也 可 以 是 map-reduce-reduce-reduce， 或 者 map-reduce- 
map-reduce-map-reduce( 下 节 会 给 出 相关 例子 )。 在 steps () 方 法 里 ， 需 要 为 mrjob 指 定 和 
如 果 未 给 出 ， 它 将 默认 调用 mapper 和 reducer 方 法 。 I 
先 来 看 一 下 mapper 的 行为 : 它 类 似 于 for 循 环 , 在 每 行 输入 上 执行 同样 的 步 
ppe : s l 再 步 又。 如 果 想 在 
收 到 所 有 的 输入 之 后 进行 茶 些 处 理 ， 可 以 考虑 放 在 mapper_final 中 实现 。 这 乍 看 起 来 有 些 古 怪 ， 
ee 常 实用 。 0 () 和 mapper_final() 中 还 可 以 共享 状态 。 所 以 在 上 述 例子 中 ， 首 
mapper () 中 对 输入 值 进行 积累 ， 所 有 值 收集 完毕 后 计算 出 均值 和 平方 均 i 些 
作为 中 间 值 通过 yiela 语 句 传 出 去 。? 0 SR 
Si ee 如 果 想 传 出 去 多 个 中 间 值 , 一 个 好 的 办 法 是 将 它们 打包 成 
= 个 列表 。 这 些 值 在 map 阶 段 之 后 会 按照 key 来 排序 。Hadoop 提 供 了 更 改 排序 方法 的 选项 ， 但 默 
WA 以 应 付 大 多 数 的 常见 应 用 。 拥 有 相同 key 的 中 间 值 将 发 送 给 同一 个 reducer。 因 此 
你 需要 考虑 key 的 设计 , 使 得 在 sort 阶 段 后 相似 的 值 能 够 收集 在 一 起 。 这 里 所 有 的 mapper 都 使 用 "17” 
作为 key， 因 为 我 希望 所 有 的 中 间 值 都 在 同一 个 reducer 里 加 和 起 来 。® 
mrjob 里 的 reducer 与 mapper 有 一 些 不 同 之 处 ，reducer 的 输入 存放 在 迭代 器 对 象 里 。 为 了 能 i 
: y ; 。 为 了 能 读 
人 需要 使 用 类 似 for 循 环 的 迭代 器 。mapper 或 mapper_final 和 reducer 之 间 不 能 共 
享 状态 ， 因 为 pythonh ye mapreduee 失 中 间 没 有 保持 活动 。 如 果 需 要 在 mapper 和 reducer 之 
间 进 行 任何 通信 ， 那 么 只 能 通过 key/value 对 。 在 reducer 的 最 后 有 一 条 输出 语句 ， 该 语句 没有 key， 
Sl 的 key 值 已 经 固定 。 如 果 该 reducer 之 后 不 是 输出 而 是 执行 男 一 个 mapper， 那么 key 仍 需要 
无 须 多 言 ， 下 面 看 一 下 实际 效果 ， 先 运行 一 下 mapper， 在 Linux/DOS 的 命令 行 
本 了 ， 证 令 行 输入 下 面 的 命 
令 (注意 不 是 在 Python 提示 符 下 )。 其 中 的 文件 inputFile.txt 在 第 15 章 的 代码 里 。 
gpPython mrMean.py --mapper < inputFile.txt 
运行 该 命令 后 ， 将 得 到 如 下 输出 : 
1 [100, 0.50956970000000001, 0.34443931307935999] 


一 0 一 


要 运行 整个 程序 ， 移 除 --mapper 选 项 。 
Spython mrMean.py < inputFile.txt 


你 将 在 屏幕 上 看 到 很 多 中 间 步 骤 的 描述 文字 ， 最 终 的 输出 如 下 : 





@ 在 一 个 标准 的 map-reduce 流 程 中 ， 作 业 的 输入 即 mapper 的 输入 ，m ， 

: 9 的 输出 也 洒 I 经 过 排 
组 合 等 操作 会 转 为 reducer 的 输入 ， 而 reducer 的 输出 即 为 作业 的 输 ee cd 中 间 值 ， 中 间 值 经 过 排序 、 
@ 只 要 所 有 mapper 都 使 用 相同 的 key 就 可 以 。 当 然 ， 不 必 是 “1”， 也 可 以 是 其 他 值 。 SY 
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streaming final output from c:\users\peter\appdata\local 

\temp\mrMean. Peter.20110228.172656.279000\output \part-00000 

0.50956970000000001 0.34443931307935999 

removing tmp directory c:\users\peter\appdata\local\ 
mrMean.Peter.20110228.172656.279000 , 

es the valid output into a file, enter the following command: 

Spython mrMean.py < inputFile.txt > outFile.txt 


最 后 ， 要 在 Amazon 的 EMR 上 运行 本 程序 ， 输 入 如 下 命令 (确保 你 已 经 设 定 了 环境 变量 AWs- 
ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY， 这 些 变 量 的 设 定 见 附录 A )。 

spython mrMean.py -r emr < inputFile.txt > outFile.txt 

完成 了 mrjob 的 使 用 练习 ， 下 面 将 用 它 来 解决 一 些 机 器 学 习 问 题 。 上 文 提 到 ， 一 些 友 代 算法 
仅 使 用 EMR 难 以 完成 ， 因此 下 一 节 将 介绍 如 何 用 mrjob 完 成 这 项 任务 。 


15.6 示例 : 分 布 式 SVM 的 Pegasos 算法 


第 4 章 介绍 过 一 个 文本 分 类 算法 ; 简单 贝 叶 斯 。 该 算法 将 文本 文档 看 做 是 词汇 空间 里 的 向 量 。 
第 6 音 又 介绍 了 效果 很 好 的 SVM 分 类 算法 ,该 算法 将 每 个 文档 看 做 是 成 千 上 万 个 特征 组 成 的 向 量 。 

在 机 器 学 习 领 域 , 海量 文档 上 做 文本 分 类 面临 很 大 的 挑战 。 怎样 在 如 此 大 的 数据 上 训练 分 类 
器 呢 ? 如 果 能 将 算法 分 成 并 行 的 子 任务 ， 那么 MapReduce 框 架 有 望 帮 我 们 实现 这 一 点 。 回 忆 第 6 
音 , SMO 算法 一 次 优化 两 个 支持 向 量 , 并 在 整个 数据 集 上 交代 ， 在 需要 注意 的 值 上 停止 。 该 算法 
看 上 去 并 不 容易 并 行 化 。 


(1) 收集 数据 ， 数据 按 文本 格式 存放 。 

(2) 准备 数据 ; 输入 数据 已 经 是 可 用 的 格式 ， 所 以 不 需 任何 准备 工作 。 如 果 你 需要 解析 一 
个 大 规模 的 数据 集 ， 建议 使 用 map 作 业 来 完成 ， 从 而 达到 并 行 处 理 的 目的 。 

(3) 分 析 数 据 : 无 。 

(4) 训练 算法 ;与 普通 的 SVM 一 样 ， 在 分 类 器 训练 上 仍 需 花费 大 量 的 时 间 。 

(5) 测试 算法 ; 在 二 维 空间 上 可 视 化 之 后 ， 观 察 超 平面 ， 判 断 算法 是 否 有 效 。 _ 

(6) 使 用 算法 本 例 不 会 展示 一 个 完整 的 应 用 ， 但 会 展示 如 何在 大 数据 集 上 训练 SVM。 访 
算法 其 中 一 个 应 用 场景 就 是 文本 分 类 ， 通 常 在 文本 分 类 里 可 能 有 大 量 的 文档 和 成 千 上 
万 的 特征 。 


SMO 算 法 的 一 个 替代 品 是 Pegasos 算 法 ， 后 者 可 以 很 容易 地 写成 MapReduce 的 形式 。 本 节 将 


分 析 Pegasos 算 法 ， 介 绍 如 何 写 出 分 布 式 版 本 的 Pegasos 算 法 ， 最 后 在 mrjob 中 运行 该 算法 o 


在 MapReduce 框 淋 上 使 用 SVM 的 一 般 方法 
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15.6.1 Pegasos 算法 


Pegasos 是 指 原始 估计 梯度 求解 器 (Primal Estimated sub-GrAdient Solver )。 该 算法 使 用 某 种 
形式 的 随机 梯度 下 降 方法 来 解决 SVM 所 定义 的 优化 问题 ,研究 表明 该 算法 所 需 的 迭代 次 数 取决 于 
用 户 所 期 望 的 精确 度 而 不 是 数据 集 的 大 小 ， 有 关 细 节 可 以 参考 原文 ?。 原 文 有 长 文 和 短文 两 个 版 
本 ， 推 荐 阅读 长 文 。 

第 6 章 提 到 ，SVM 算 法 的 目的 是 找到 一 个 分 类 超 平 面 。 在 二 维 情况 下 也 就 是 要 找到 一 条 
直线 ,将 两 类 数据 分 隔 开 来 。Pegasos 算 法 工作 流程 是 : 从 训练 集中 随机 挑选 一 些 样本 点 添加 
到 待 处 理 列表 中 ， 之 后 按 序 判断 每 个 样本 点 是 否 被 正确 分 类 ; 如 果 是 则 忽略 ， 如 果 不 是 则 将 
其 加 入 到 待 更 新 集合 。 批 处 理 完毕 后 ， 权 重 向 量 按照 这 些 错 分 的 样本 进行 更 新 。 整 个 算法 循 
环 执行 。 

上 述 算法 伪 代 码 如 下 : 

将 Ww 初始 化 为 0 

对 每 次 批 处 理 

随机 选择 k 个 样本 点 (向量 ) 
对 每 个 向 量 
如 果 该 向 量 被 错 分 : 
更 新 权重 向 量 w 
累加 对 w 的 更 新 


为 了 解 实际 效果 ，Pythong 版 本 的 实现 见 程序 清单 15-4。 
程序 清单 15-4 ”SVM 的 Pegasos 算 法 


def predict (w, x): 
return w*x.T 


def batchPegasos (dataSet, labels, lam, T, k): 
mn = shape (dataSet),; w = zeros(n); 
dataIndex = range (m) 
for t in range(1, T+1): 

wDelta = mat (zeros (n)) 
eta = 1.0/ (lam*t) 
random.shuffle (datalIndex) 
for j in range(k): 

i = dataIindex[j] 

p = predict(w, dataset {i,:]) 

if labels[i]l*p < 1: 

wDelta += liabels[i]*dataSet [i,:] .A 
w= {1.0 - 1l/t)*w + (eta/k) *wDelta 
return w 


将 待 更 新 值 累 加 





(人 S. Shalev-Shwartz, Y. Singer, N. Srebro, “Pegasos: Primal Estimated sub-GrAdient SOlver for SVM,” Proceedings of the 
24th Interational Conference on Machine Learning 2007. 
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程序 清单 15-4 的 代码 是 Pegasos 算 法 的 串 行 版 本 。 输入 值 r 和 kx 分 别 设 定 了 迭代 次 数 和 待 处 理 
列表 的 大 小 。 在 Tf 次 迭代 过 程 中 ， 每 次 需要 重新 计算 eta。 它 是 学 习 率 ， 代表 了 权重 调整 幅度 的 
大 小 。 在 外 循环 中 , 需要 选择 男 一 批 样本 进行 下 一 次 批 处 理 ; 在 内 循环 中 执行 批 处 理 ， 将 分 类 错 
误 的 值 全 部 累加 之 后 更 新 权重 向 量 @。 

如 果 想 试 试 它 的 效果 ， 可 以 用 第 6 章 的 数据 来 运行 本 例 程序 。 本 书 不 会 对 该 代码 做 过 多 分 析 ， 
它 只 为 Pegasos 算 法 的 MapReduce 版 本 做 一 个 铺垫 。 下 节 将 在 mrjob 中 建立 并 运行 一 个 MapReduce 
版 本 的 Pegasos 算 法 。 


15.6.2 ”训练 算法 ， 用 mrjob 实现 MapReduce 版 本 的 SVM 


本 节 将 用 MapReduce 来 实现 程序 清单 15 -4 的 Pegasos 算 法 , 之 后 再 用 1 5.5 节 讨论 的 mrjob 框 架 运 
行 该 算法 。 首 先 要 明白 如 何 将 该 算法 划 分 成 map 阶 段 和 reduce 阶 段 ， 确 认 哪 些 可 以 并 行 ， 岂 些 不 
能 并 行 。 

对 程序 清单 15-4 的 代码 运行 情况 稍 作 观察 将 会 发 现 ， 大 量 的 时 间 花 费 在 内 积 计算 上 。 另 外 ， 
内 积 运算 可 以 并 行 ， 但 创建 新 的 权重 变量 w 是 不 能 并 行 的 。 这 就 是 将 算法 改写 为 MapReduce 作 业 


、 


的 一 个 切入 点 。 在 编写 mapper 和 reducer 的 代码 之 前 ， 先 完成 一 部 分 外 围 代码 。 打开 文本 编辑 器 ， 
创建 一 个 新 文件 mrSVM.py， 然 后 在 该 文件 中 添加 下 面 程序 清单 的 代码 。 


程序 清单 15-5 “mrjob 中 分 布 式 Pegasos 算 法 的 外 围 代码 
from mrjob .job import MRJob 


import pickle 
from numpy import * 


class MRsvm (MRJOb): 
DEFAULT_INPUT_PROTOCOL, = 'json value' 


def _init (self, *args, **kwargs): 
super (MRsvm, self)._ init__ (*args, **kwargs) 
self .data = pickle.load{(open(\ 
1<path to your Chl5 code directory>\svmDat27')) 
self.w = 0 
self.eta = 0.69 
gself.dataList = [] 
self,k = self.options.batchsize 
self .numMappers = 1 
self.t = 1 


def configure options (self): 

super (MRSVm， self) .configure options() 

self.add passthrough option( 
'--iterations', dest='iterations', default=2, type='int', 
help='T: number of iterations to run') 

self.add passthrough option( 
'--batchsize', dest='batchsize', default=100, type='int', 
help='k: number of data points in a batch') 
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def steps (self): 
return ([self.mr (mapper=self.map, mapper_final=self .map. fin,\ 
reducer-self.reduce)]*self.options.iterations) 


if _name == ' main '. 
MRsvm.run() 


程序 清单 15-5 的 代码 进行 了 一 些 设 定 ， 从 而 保证 了 map 和 reduce 阶 段 的 正确 执行 。 在 程序 开 
头 ， Mrjob、 NumPy 和 Pickle 模 块 分 别 通 过 一 条 inc lude 语 句 导 和信。 之 后 创建 了 一 个 mrjob 类 MRsvm， 
其 中 __init__() 方法 初始 化 了 一 些 在 map 和 reduce 阶 段 用 到 的 变量 。Python 的 模块 Pickle 在 加 载 
不 同 版 本 的 Python 文件 时 会 出 现 问题 。 为 此 , 我 将 Python2.6 和 2.7 两 个 版 本 对 应 的 数据 文件 各 自 存 
为 svmDat26 和 svmDat27。 
对 应 于 命令 行 输入 的 参数 ， Configure_options () 方法 建立 了 一 些 变量 ， 包 括 欠 代 次 数 
(T)、 待 处理 列表 的 大 小 (Xk )。 这 些 参数 都 是 可 选 的 ， 如 果 未 指定 ， 它 们 将 采用 默认 值 。 
最 后 ，steps () 方 法 告诉 mrjob 应 该 做 什么 ， 以 什么 顺序 来 做 。 它 创建 了 一 个 Python 的 列 
表 ， 包 含 map、map_fin 和 reduce 这 几 个 步 又， 然后 将 该 列表 乘 以 欠 代 次 数 ， 即 在 每 次 欠 代 中 
重复 调用 这 个 列表 。 为 了 保证 作业 里 的 任务 链 能 正确 执行 ，mapper 需 要 能 够 正确 读 取 reducer 
单个 MapReduce 作 业 中 无 须 考虑 这 个 因素 , 这 里 需要 特别 注意 输入 和 输出 格式 的 
Yo 
我 们 对 输入 和 输出 格式 进行 如 下 规定 : 
Mapper 
Inputs: <mapperNum, valueList> 
Outputs: nothing 


Mapper_final 


Inputs: nothing 
Outputs: <1, valueList > 


Reducer 


Inputs: <mapperNum, valueList > 
Outputs: <mapperNum, valueList > 
传人 的 值 是 列表 数组 , valueList 的 第 一 个 元 素 是 一 个 字符 串 , 用 于 表示 列表 的 后 面 存放 的 
是 什么 类 型 的 数据 ， 例 如 {'x' ,23} 和 ['w', [1,5,6]]。 每 个 mapper final 都 将 输出 同样 的 key， 
这 是 为 了 保证 所 有 的 key/value 对 都 输出 给 同一 个 reducer。 
定义 好 了 输入 和 输出 之 后 , 下面 开始 写 mapper 和 reducer 方 法 ,打开 mrSVM.py 文 件 并 在 MRsvm 
类 中 添加 下 面 的 代码 。 . 
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程序 清单 15-6 ”分 布 式 Pegasos 算 法 的 mapper 和 reducer 代 码 


def map(self, mapperId, inVvals): 
if False: yield 
if inVals[0]=='w' : 
self.w = inVals[1] 
elif inVals[0j=='x': 
self .dataList .append (invals [1] ) 
elif inVals{0]=='t': self.t = invals[1] 
def map fin(self): 
labels = self.data[:,-1]; X=self.data[l:,0:-1] 
if selt,w == 0: self.w = [0.001]*shape (X) [1] 
for index in self.dataList: 
p = matl(self.w)*X[index,:].T 
if labels[index]*p < 1.0: 
yield (1, ['u', index]) 
yield (1, ['w', self .w]) 
yield (1， [tt self .t]) 


def reduce(self, , packedVals): 
for valArr in PackedVals : 
it valArr{[0]=='u!': self .dataList .append (valArr {1]) 
elif valArr[0]}=='w': self.w = valArr[1] 
elif valArr[0]=='t': self.t = valArr[1] 
labels = self.data[:,-1]; x=self .data[:,0:-1] 
wMat = mat (self.w); whelta = mat(zeros (len(self.w))) 


for index in self.databList: 
wDelta += float (labels [index])*X{index,:] 
eta = 1.0/(2.0*self.t) 
wMat = (1.0 - 1.0/self.t)*wMat + (eta/self .k) *wDelta 
for mapperNum in range (1, self .numMappers+1): 
yield (mapperNum, ['w', wMat .tolist (} [0] 1) 
if self.t < self.options.iterations: 
yield (mapperNum, ['t'’, self .t+1]) 
for j in range (self .k/self .numMappers): 
yield (mapperNum, ['x',\ 
random.randint (shape (self .data) [0}) ]) 


程序 清单 15-6 里 的 第 一 个 方法 是 map () ， 这 也 是 分 布 式 的 部 分 ， 它 得 到 输入 值 并 存储 ， 以 便 
在 map_fin () 中 处 理 。 该 方法 支持 三 种 类 型 的 输入 : w 向 量 、 t 或 者 x。t 是 迭代 次 数 ， 在 本 方法 
中 不 参与 运算 。 状 态 不 能 保存 ， 因此 如 果 需 要 在 每 次 迭代 时 保存 任何 变量 并 留 给 下 一 次 迭代 ， 可 
以 使 用 key/value 对 传递 该 值 ， 抑或 是 将 其 保存 在 磁盘 上 。 显 然 前 者 更 容易 实现 ， 速度 也 更 快 。 

map_fin () 方 法 在 所 有 输入 到 达 后 开始 执行 。 这 时 已 经 获得 了 权重 向 量 w 和 本 次 批 处理 中 的 
一 组 x 值 。 每 个 x 值 是 一 个 整数 ， 它 并 不 是 数据 本 身 ， 而 是 索引 。 数据 存储 在 磁盘 上 ， 当 脚本 执行 
的 时 候 读 人 到 内 存 中 。 当 map_fin () 启 动 时 ， 它 首先 将 数据 分 成 标签 和 数据 , 然后 在 本 次 批 处 理 
的 数据 (存储 在 self .dataList 里 ) 上 进行 迭代 ， 如 果 有 任何 值 被 错 分 就 将 其 输出 给 reducer。 
为 了 在 mapper 和 reducer 之 间 保 存 状态 ，w 疝 量 和 t 值 都 应 被 发 送 给 reducer。 

最 后 是 reduce ( ) 函数 ， 对 应 本 例 只 有 一 个 reducer 执 行 。 该 函数 首先 迄 代 所 有 的 key/value 对 
并 将 值 解 包 到 一 个 局 部 变量 aatalist 里 。 之 后 daataList 里 的 值 都 将 用 于 更 新 权重 向 量 w， 更 新 
量 在 wpelta 中 完成 累加 人 @。 然后 ， wMat 按 照 wpelta 和 学 习 率 eta 进 行 更 新 。 在 wMat 更 新 完毕 后 ， 


0 将 更 新 值 累 加 
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又 可 以 重新 开始 整个 过 程 : 一 个 新 的 批 处 理 过 程 开 始 ， 随 机 选择 一 组 向 量 并 输出 。 注 意 ， 这 些 向 
量 的 key 是 mapper 编 号 。 

为 了 看 一 下 该 算法 的 执行 效果 , 还 需要 用 一 些 类 似 于 reducer 输 出 的 数据 作为 输入 数据 启动 该 
任务 ， 我 为 此 附 上 了 一 个 文件 kickStart txt。 在 本 机 上 执行 前 面 的 代码 可 以 用 下 面 的 命令 ; 


Spython mrSVM.py < kickSEart .txt 


streaming final output from c:\users\peter\appdata\local\temp 
\mrSVM.Peter.20110301.011916.373000\output\part-00000 

1 ["w", [0.51349820499999987, -0.084934502500000009]] 
removing tmp directory c:\users\peter\appdata\local\temp 
\mrSVM.Peter.20110301.011916.373000 


这 样 就 输出 了 结果 。 经 过 2 次 和 50 次 迭代 后 的 分 类 面 如 图 15-9 所 示 。 





2 4 6 8 


图 15-9 经 过 多 次 迭代 的 分 布 式 Pegasos 算 法 执行 结果 。 该 算法 收敛 迅速 ， 
多 次 迭代 后 可 以 得 到 更 好 的 结果 


如 果 想 在 EMR 上 运行 该 任务 ， 可 以 添加 运行 参数 ，-r emr。 该 作业 默认 使 用 的 服务 器 个 数 
是 1。 如 果 要 调整 的 话 ， 添 加 运行 参数 ，--num-ec2-instances=2( 这 里 的 2 也 可 以 是 其 他 正 整 
数 )， 整 个 命令 如 下 : 

%python mrSVvM.py -r emr --num-ec2-instances=3 < kickStart.txt > myLog.txt 


要 查看 所 有 可 用 的 运行 参数 ， 输入 %python mrSVM.py -ho 15 











| 
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， job | Amazon 网 络 服务 ( AWS ) 允许 用 户 按 时 长 租借 计算 资源 。 弹性 MapReduce (EMR ) 是 Amazon 
调试 一 个 mrjob 及 本 将 比 调 读 一 个 简单 的 Python 脚本 二 手 得 多 。 这 里 仅 给 出 一 些 调 斌 建议 。 1 全 的 全 
口 确 保 已 经 安装 了 所 有 所 需 的 部 件 ，boto、simpleison 和 可 选 的 PyYAML。 任务 可 以 在 EMR 管 理 控制 侣 上 实现 并 运行 。 更 复杂 的 任务 则 需要 额外 的 工具 。 其 中 一 个 相对 新 的 
口 可 以 在 ~/imjob.eonf 文 件 中 设 定 一 些 参数 ， 确 定 它们 是 正确 的 。 和 
口 在 将 作业 效 在 BMR 上 运行 之 前 ， 尽 可 能 在 本 地 多 做 调试 。 能 在 花费 10 秒 就 发 现 一 个 错误 ee 

的 情况 下 ， 就 不 要 花费 10 分 钟 才 发 现 一 个 错误 。 很 多 机 器 学 习 算法 都 可 以 很 容易 地 写成 MapReduce 作 业 。 而 另 一 些 机 器 学 习 算 法 需要 经 过 创 
口 检查 base temp_ dir 目录 ， 它 在 ~/mrjob.conf 中 设 定 。 例 如 在 我 的 机 器 上 ， 该 目录 的 存放 位 新 性 的 修改 , 才能 在 MapReduce 上 运行 。 SVM 是 一 个 强大 的 文本 分 类 工具 ,在 大 量 文档 上 训练 一 
”时 是 /scratch/$USER， 其 中 可 以 看 到 作业 的 输入 和 输出 ， 它 将 对 程序 的 调试 非常 有 帮助 。 个 分 类 器 需要 耗费 巨大 的 计算 资源 ， 而 Pegasos 算 法 可 以 分 布 式 地 训练 SVM 分 类 器 。 像 Pegasos 算 
品 一 次 只 运行 二 个 步 若 。 法 一 样 ， 需 要 多 次 MapReduce 作 业 的 机 器 学 习 算 法 可 以 很 方便 地 使 用 mrjob 来 实现 。 
到 这 里 为 止 ， 本 书 的 正文 部 分 就 结束 了 ， 感 谢 你 的 阅读 。 和 希望 这 本 书 能 为 你 开启 新 的 大 门 。 


| 另外 , 在 机 器 学 习 的 数学 和 具体 实现 方面 还 有 很 多 东西 值得 探索 。 我 很 期 竺 你 
到 现在 为 止 ， 读者 已 经 学 习 了 如 何 编写 以 及 如 何在 大 量 机 器 上 运行 机 器 学 习作 业 ， 下 节 将 分 hte nh ts 


析 这 样 做 的 必要 性 。 
15.7 ”你 真 的 需要 MapReduce 了 吗 ”? 


不 需要 知道 你 是 谁 , 我 可 以 说 ,你 很 可 能 并 不 需要 使 用 MapReduce 和 Hadoop， 因 为 单机 的 处 
理 能 力 已 经 足够 强大 。 这 些 大 数据 的 工具 是 Google、Yelp 和 Facebook 等 公司 开发 的 ， 世 界 上 能 有 
多 少 这 样 的 公司 ? 

充分 利用 已 有 资源 可 以 节省 时 间 和 精力 。 如 果 你 的 作业 花费 了 太 多 的 时 间 ， 先 问 问 自己 ; 代 
码 是 否 能 用 更 有 效率 的 语言 编写 (如 C 或 者 Java ) ?如 果 语 言 已 经 足够 有 效率 ， 那 么 代码 是 否 经 
过 了 充分 的 优化 ?影响 处 理 速度 的 系统 瓶颈 在 哪里 , 是 内 存 还 是 处 理 器 ? 或 许 你 不 知道 这 些 问题 
的 答案 ， 找 一 些 人 做 些 咨询 或 讨论 将 非常 有 益 。 

大 多 数 人 意识 不 到 单 台 机 器 上 可 以 做 多 少数 字 运 算 。 如 果 没 有 大 数据 的 问题 , 一 般 不 需要 用 
到 MapReduce 和 Hadoop。 但 对 MapReduce 和 Hadoop 稍 作 了 解 ,在 面临 大 数据 的 问题 时 知道 它们 能 
做 些 什么 ,还 是 很 棒 的 一 件 事情 。 











15.8 本 章 小 结 


当 运 算 需 求 超出 了 当前 资源 的 运算 能 力 , 可 以 考虑 购买 更 好 的 机 器 。 另 一 个 情况 是 ， 运算 需 
求 超出 了 合理 价位 下 所 能 购买 到 的 机 器 的 运算 能 力 。 其 中 一 个 解决 办 法 是 将 计算 转 成 并 行 的 作 
业 ，MapReduce 就 提供 了 这 种 方案 的 一 个 具体 实施 框架 。 在 MapReduce 中 ， 作 业 被 分 成 map 阶 段 
和 reduce 阶 段 。 

一 个 典型 的 作业 流程 是 先 使 用 map 阶 段 并 行 处 理 数据 ， 之 后 将 这 些 数据 在 reduce 阶 段 合 并 。 
这 种 多 对 一 的 模式 很 典型 ， 但 不 是 唯一 的 流程 方式 。mapper 和 reducer 之 间 传 输 数 据 的 形式 是 
key/value 对 。 一 般 地 ，map 阶 段 后 数据 还 会 按照 key 值 进行 排序 。Hadoop 是 一 个 流行 的 可 运行 
MapReduce 作 业 的 Java 项 目 ， 它 同时 也 提供 非 Java 作 业 的 运行 支持 ， 叫 做 Hadoop 流 。 














